你是否曾经看到过那些生物信息学图表,不知所措,头痛得要命呢?别担心,今天小编就来帮你解读那些看起来复杂莫测的生信图!让我们一起拨云见日,揭开数据的奥秘!
结合领域知识和统计分析方法,更准确地解读生信图并得出有意义的结论,让数据不再成为你的困惑,根据具体的数据和研究问题来解读生信图,戳破那层神秘的面纱~快来跟我们一起探险吧!
01
火山图和维恩图
火山图(Volcano plot)是一种常用于高通量基因表达数据分析的可视化图表类型,它能够直观地展示差异表达基因的数量和程度。
概念:火山图能够将基因表达的差异度和统计学显著度结合在一起,通过绘制散点图的方式展示样本之间的差异和统计学显著性。
用法:火山图常用于比较两个或多个不同组别的基因表达数据,例如疾病组和对照组之间的表达差异,或者不同治疗方案的表达差异。它能够帮助研究人员快速识别差异表达基因,并且判断这些基因在生物学上的重要性。
解读:火山图的横轴代表基因表达的差异度,通常是log2倍数的表达差异,左侧表示下调,右侧表示上调。纵轴代表基因的统计学显著性,通常是-log10(p-value),p-value越小,表示差异越显著。点的颜色和大小可以用来表示基因的重要性或者其他附加信息。在火山图中,显著差异表达的基因通常位于左上角和右上角的区域,位于这两个区域的基因有可能是具有重要生物学意义的差异表达基因。
韦恩图(Venn Diagram)是一种常用于数据可视化的图表类型,它能够直观地展示数据集之间的交集和差异。
概念:韦恩图是一种基于集合论的可视化方式,通常用于展示两个或多个数据集之间的交集和差异。它通过圆圈的位置和重叠程度来表示数据集之间的关系。
用法:韦恩图常用于比较两个或多个不同数据集之间的交集和差异,例如比较两个或多个基因列表之间的共同基因和特异基因。它能够帮助研究人员快速识别数据之间的相似性和差异性。
解读:韦恩图的每个圆圈代表一个数据集,圆圈之间的重叠部分表示两个数据集之间的交集。如果有多个数据集,那么可以通过圆圈之间的交叠程度来判断它们之间的相似性和差异性。例如,如果两个圆圈之间的重叠部分很大,那么说明它们之间有很多共同的元素;反之,如果两个圆圈之间没有重叠部分,那么说明它们之间没有共同的元素。在韦恩图中,每个圆圈的大小可以表示数据集的大小或重要性,例如一个圆圈越大,表示该数据集越重要或者包含更多的元素。
举例:
- 图1A/B显示GEO数据集中两个样本GSE55945和GSE6919的肿瘤组织与正常组织之间差异表达基因的火山图。X坐标为log2 (fold change), Y坐标为- log10 (p值)。每个点代表一个基因。蓝点为显著表达的下调基因。红点为显著表达的上调基因。黑点表示未改变的表达基因。
- 图1C显示使用维恩图来识别两个数据库中出现的差异表达基因,维恩图显示共筛选了134个常见的差异表达基因,包括14个上调基因和120个下调基因。
02
热图
热图(Heatmap)是一种常用于数据可视化的图表类型,它能够直观地展示数据的相似性和差异性。
概念:热图是一种基于颜色编码的可视化方式,通常用于展示二维矩阵中的数据。它通过颜色的深浅来表示数据的大小,从而展示数据的相似性和差异性。
用法:热图常用于比较多个样本或基因的表达数据,例如比较不同组织或疾病中基因表达的差异。它能够帮助研究人员快速识别数据之间的相似性和差异性,并且可以通过热图中的聚类来发现数据的模式和关系。
解读:热图的横轴和纵轴分别表示样本或基因,矩阵中的每个单元格表示样本或基因的值。热图中的颜色深浅表示数据的大小,通常用红色表示高值,绿色表示低值。通过观察热图中单元格的颜色变化,可以判断数据之间的相似性和差异性。如果某些样本或基因的颜色深浅相似,那么它们之间的数据相似性较高;反之,如果某些样本或基因的颜色深浅差异较大,那么它们之间的数据差异性较大。在热图中,聚类可以用来发现数据的模式和关系,例如聚类分析可以将相似的样本或基因分为一组,并将它们在热图中相互靠近。
举例:
注:热图显示微阵列数据的分析结果中差异表达的前100个基因(包括36个下调基因和64个上调基因)。红色代表显著表达的上调基因;绿色代表显著表达的下调基因。
03
UMAP图
UMAP图(Uniform Manifold Approximation and Projection)是一种基于非线性降维的可视化方法,它能够将高维数据映射到二维或三维空间中,并展示数据的相似性和差异性。
概念:UMAP图是一种基于非线性降维的可视化方式,通常用于展示高维数据集中的相似性和差异性。它通过将高维数据映射到低维空间中,从而展示数据之间的关系和结构。
用法:UMAP图常用于比较多个样本或基因的表达数据,例如比较不同组织或疾病中基因表达的差异。它能够帮助研究人员快速识别数据之间的相似性和差异性,并且可以通过UMAP图中的聚类来发现数据的模式和关系。
解读方法:UMAP图中的每个点表示一个样本或基因,点之间的距离表示它们之间的相似性或差异性。UMAP图中的点的位置是基于高维数据的相似性和差异性计算得到的,因此相似的数据点会被映射到离得较近的位置,而不相似的数据点会被映射到离得较远的位置。在UMAP图中,聚类可以用来发现数据的模式和关系,例如聚类分析可以将相似的样本或基因分为一组,并将它们在UMAP图中相互靠近。UMAP图还可以通过调整参数来改变数据的映射方式,例如调整距离指标和降维的维度等。
举例:
04
气泡图
气泡图(Bubble Chart)是一种常用于数据可视化的图表类型,它能够同时展示两个或三个变量之间的关系,通过气泡的大小和颜色来表示第三个变量的值。
概念:气泡图是一种基于散点图的可视化方式,它通过气泡的大小和颜色来表示第三个变量的值,通常用于展示数据的相关性和趋势。
用法:气泡图常用于比较两个或多个不同组别的数据,例如药物剂量与药物疗效之间的关系以及患者年龄与药物疗效之间的关系,或者利用功能和通路富集分析差异基因参与哪些细胞生物学功能和通路。气泡图能够帮助研究人员快速识别数据之间的相关性和趋势,并且识别出与众不同的数据点。
解读方法:气泡图的横轴和纵轴分别表示两个变量,气泡的大小和颜色表示第三个变量的值。气泡越大,表示第三个变量的值越大;气泡颜色越深,表示第三个变量的值越高。通过观察气泡图中的气泡大小和颜色的变化,可以判断数据之间的相关性和趋势。如果气泡越大,颜色越深,表示数据趋势越明显。而如果气泡大小和颜色变化不明显,表示数据之间的关系不明显,需要进一步分析。
举例:
- 图1A的气泡图表示差异表达基因中功能富集分析的结果,包括生物过程,细胞成分和分子功能。生物过程(BP)分析结果显示,最显著的改变途径是细胞粘附、细胞增殖负调控、对雌二醇的反应、心脏发育、肌肉收缩、肌动蛋白细胞骨架组织、衰老、脂质代谢过程、中间纤维组织和细胞迁移调节。细胞成分(CC)分析结果显示,差异表达基因在细胞质溶胶、质膜、细胞外间隙、细胞外泌体、细胞外区、细胞骨架、内质网、高尔基体、局灶黏附和细胞外基质中最富集。分子功能(MF)分析结果显示,蛋白质结合、肌动蛋白丝结合、肌动蛋白结合、脂肪酸结合、细胞骨架结构成分、神经肽激素活性、蛋白激酶C结合、细胞骨架蛋白结合、脂肪胺氧化酶活性和苯乙胺:氧化还原酶活性最显著增强。图中显示上述三项涉及的大部分基因被下调。
- 图4B的气泡图表示差异表达基因中信号通路富集分析的结果,信号通路分析显示,差异表达基因参与血管平滑肌收缩、局灶黏附、酪氨酸代谢、苯丙氨酸代谢和初级胆油酸生物合成途径。
05
小提琴图和箱线图
小提琴图(Violin Plot)是一种常用于数据可视化的图表类型,它结合了箱线图和密度图的特点,能够直观地展示数据的分布情况。
概念:小提琴图是一种基于密度图和箱线图的可视化方式,它能够展示数据的分布情况,包括中位数、四分位数、最大值、最小值等信息。
用法:小提琴图常用于比较不同组之间的数据分布情况,例如比较两个或多个不同组别的数据,或者比较同一组数据在不同时间点的分布情况。它的可视化效果比箱线图更加直观,能够更好地展示数据的特点。
解读:小提琴图的中间粗线代表数据的中位数,两端的细线代表数据的分布情况。小提琴图通常还会包括箱线图的信息,例如箱线图中的四分位数点、最大值和最小值等。在比较不同组之间的数据分布情况时,可以通过观察小提琴图的形状来进行判断。例如,两个小提琴图的形状相似,但其中一个小提琴图的中位数更高,那么可以判断这个组的数据整体上比另一个组的数据更大。
箱线图(Box plot)是一种有用的数据可视化工具,可以帮助研究人员快速了解数据的分布情况和特征,包括中心趋势、离散程度以及异常值等信息。
概念:箱线图是一种用于展示数据分布情况的图形。它由五条线构成,分别是最大值、最小值、中位数和上下四分位数。箱线图可以清晰地展示数据的中心趋势、离散程度以及异常值等信息。
用法:箱线图常用于数据分析和数据可视化中。它可以帮助研究人员快速了解数据的分布情况,包括中心趋势、离散程度以及异常值等信息。箱线图还可以用于比较不同数据集之间的差异和相似性。
解读:箱线图中的每条线都代表了一种数据特征。下面是箱线图中每条线的含义和解读方法:
①上边缘:代表数据的最大值,也就是数据中最大的观测值。
②下边缘:代表数据的最小值,也就是数据中最小的观测值
③上四分位数(Q3):代表数据的上四分位数,也就是数据中25%~75%的观测值。中位数(Q2)位于上四分位数和下四分位数之间。
④下四分位数(Q1):代表数据的下四分位数,也就是数据中25%以下的观测值。
⑤中位数(Q2):代表数据的中位数,也就是数据中50%的观测值。中位数可以帮助研究人员了解数据的集中趋势。
⑥箱线图中的异常值可以通过离群点来表示,离群点是指距离上下四分位数超过1.5倍四分位距的点。离群点可能是数据采集或处理中的错误,也可能是真实的异常值。研究人员需要针对离群点进行进一步分析,以确定它们是否应该被排除或保留。
举例:
- 图5A显示用小提琴图比较15个枢纽候选基因在数据集中的表达分布,分析结果显示这些基因在GSE6919和GSE55945数据集中高度一致。
- 图5B显示用箱线图验证肿瘤组织样本中15个枢纽候选基因与正常样本的表达情况。ACTA2、FLNA、MYH11、TAGLN、LDB3、MYLK、TPM1、MYL9、CNN1、FLNC、LMOD1、SMTN、CALD1和CAV1基因在肿瘤组织中显著下调表达,而SPP1基因在肿瘤组织中显著上调表达(P<0.05)。红色和灰色的方框分别代表肿瘤组织和正常组织,点表示每个样本中的表达式。
06
ROC曲线图
ROC曲线图(Receiver Operating Characteristic Curve)是一种常用于评估分类模型性能的图表类型,它能够直观地展示分类器的准确率和召回率之间的权衡关系。
概念:ROC曲线图是一种用于评估二元分类模型性能的可视化方式。它通过绘制真阳性率(True Positive Rate)和假阳性率(False Positive Rate)之间的关系曲线,来展示分类器的准确率和召回率之间的权衡关系。
用法:ROC曲线图常用于评估二元分类模型的性能,例如区分病人和非病人、判断邮件是否为垃圾邮件等。它能够帮助研究人员快速评估分类模型的性能,并选择最佳的模型参数。
解读:ROC曲线图的横轴表示假阳性率(FPR),即被错误地判断为正类的样本数与所有负类样本数之比。纵轴表示真阳性率(TPR),即被正确地判断为正类的样本数与所有正类样本数之比。分类器的性能越好,则ROC曲线越靠近左上角,即真阳性率越高,假阳性率越低。ROC曲线下的面积(AUC)是评估分类器性能的重要指标,AUC的范围在0至1之间,数值越接近1,表示分类器性能越好。在实际应用中,根据具体需求和阈值可以选择最佳的分类器,比如可以根据实际情况调整阈值来平衡准确率和召回率。
举例:
1、图6A显示通过ROC曲线分析评估lncRNA在患者1年、3年和5年生存时间下的诊断价值,相应的ROC曲线下面积(AUC)值均大于0.7,表明lncRNA在生存预测方面具有诊断价值。AUC表示曲线下面积。
2、图6B显示五年ROC曲线上的最佳截断点为0.299,并将患者分为低危组和高危组。
通过以上的介绍,你是不是对如何看懂常见的生信图更有信心了呢?相信你已经掌握了一些基本技巧,接下来就是不断地学习和实践,不断提升自己的能力。