非标记定量方法(Label-free)通过对蛋白质酶解肽段进行质谱分析1,无需昂贵的同位素标签做内标。其基本原理是基于肽段母离子提取峰面积(XIC),先鉴定样品中的肽段及蛋白质,再对鉴定到的肽段(蛋白)进行定量分析,不仅提高了样品定量的速度,也提高了结果的准确度。利用非标记定量分析多个样品之 间同种蛋白质的差异,成本低廉,操作简单,并且分析不受样品数目的限制,因此得到了大量实验人员和科研人员的重视。该方法正在逐步走向成熟化、标准化和流程化。下图为Label-free定量技术原理图:
无标签label-free技术是一种无需使用标记剂的多肽定量方法,它基于质谱分析技术来实现定量测定。该技术通过直接比较样品中多肽的质谱特征,来推断其在不同样品中的相对含量。
从组织样品到最终数据获得的过程中,蛋白的提取、定量、检测、酶切与除盐2、馏分分离和质谱检测3每一个环节都会对数据质量和数量产生影响,而数据质量又会直接影响后续信息分析的结果。为了从源头上保证测序数据的准确性、可靠性,微科盟对每一个实验步骤都严格把控,从根本上确保了高质量数据的产出,流程图如下:
在无标签label-free技术中,样品中的多肽首先经过消化,产生肽段。然后,这些肽段通过液相色谱(LC)进行分离,使其逐一进入质谱仪。在质谱仪中,肽段被离子化形成离子,并通过质谱分析生成质谱峰。 质谱峰是质谱仪输出的一系列信号,用于表示肽段的特征。通过分析质谱峰的位置、强度和面积等信息,可以推断出样品中多肽的相对含量。这种定量方法无需引入标记剂,避免了标记剂对样品的干扰和影响,同时具备较高的准确性和灵敏度。
基于质谱检测得到的Raw文件,进行对应数据库的搜索,然后基于数据库搜索的结果进行蛋白质鉴定,同时进行肽段、蛋白和母离子质量容差分布分析来评定质谱检测数据的质量;对鉴定到的蛋白进行常见功能数据库注释,包括GO数据库和KEGG数据库;接下来进行蛋白质的定量分析,包括鉴定到的蛋白质总体差 异分析和差异蛋白的筛选及表达模式聚类分析;最后针对筛选出来的差异蛋白进行GO、KEGG功能富集分析和互作网络分析等一系列的差异蛋白功能分析。
## ./0.Sample_description
## ├── ecdf-intensities.png
## ├── log-intensities.png
## ├── pearson.png
## ├── sum-intensites.png
## └── 蛋白基础分析readme.txt
采用柱状图来展示各样本中鉴定到的总蛋白数目。
注:X轴表示蛋白定量值的和,Y轴表示不同样本。
对蛋白定量值从高到低进行排序后做出累积分布图(图 4.2.1),可以用来展示每种蛋白质定量值对总蛋白质的累积贡献,一般按照样本组进行分组画图分析。
注:X轴表示蛋白定量值从高到低排序后蛋白对应坐标位置,Y轴表示 蛋白定量值从高到低排序后累积占比,可观察出定量值高的蛋白对整体蛋白量的贡献度,图中曲线上升得越快表示蛋白质定量值对总蛋白累计贡献度越高;颜色表示不同条件组。
对蛋白定量值从高到低进行排序后画图。可以用来展示鉴定总蛋白数、定量值数量级、以及不同条件组之间定量值密度分布程度。
注:X轴表示蛋白定量值从高到低排序后蛋白对应坐标位置(即按定量值排序后第n个蛋白),Y轴表示蛋白定量值进行log10计算,本项目实现了近5个数量级定量值跨度的设别;颜色表示不同条件组。
## ./1.Basic_statistics
## ├── boxplot
## │ ├── Category1_boxplot.svg
## │ └── Category1_data_matrix.xls
## ├── heatmap
## │ ├── Category1_correlation_heatmap.png
## │ ├── Category1_correlation_matrix.xls
## │ └── Category1_p_value_matrix.xls
## ├── pca
## │ ├── Category1_PCA.svg
## │ ├── Category1_PCA_3D.svg
## │ └── Category1_pca_points_ordinates.xls
## ├── violin
## │ ├── Category1_data_matrix.xls
## │ └── Category1_violin.svg
## └── 蛋白定量分析readme.txt
为展示各个样本的蛋白表达量的整体的分布情况,我们对所有样本的蛋白丰度值,用R4.3语言程序作“箱线图”和“小提琴图”。为避免图中数据点的跨度太大,我们对蛋白质定量值,做了log2(定量值+1)的缩小变换处理。
注:X轴表示蛋白定量值从高到低排序后蛋白对应坐标位置,Y轴表示蛋白定量值进行log2计算,本项目实现了近5个数量级定量值跨度的设别;颜色表示不同条件组。
注:小提图琴是个密度图,越宽的地方说明对应于纵轴表达量的基因越多。
主成分分析(PCA)也常用来评估组间差异及组内样本重复情况,PCA采用线性代数的计算方法,对数以万计的基因变量进行降维及主成分提取。我们对所有样本的蛋白质定量值进行PCA分析,如下图所示。理想条件下,PCA图中,组间样本应该分散,组内样本应该聚在一起。
注:图中横坐标为第一主成分,纵坐标为第二主成分,不同的颜色表示不同的分组。样本点之间的距离近似于样本之间各蛋白丰度差异的总和。
注:图中X坐标为第一主成分,Y坐标为第二主成分,Z坐标为第三主成分,不同的颜色表示不同的分组。样本点之间的距离近似于样本之间各蛋白丰度差异的总和。
为了反映样本间蛋白表达的相关性,本研究计算了每两个样品之间所有定量蛋白表达量的Pearson相关系数,并将这些系数以热图的形式反映出来,如下图 5.3.1 所示。右上三角为样本之间Pearson相关性值颜色表示,值参考右边条带图。左下三角为相关性系数值,值越高说明相似程度越高(最大值为1)。
注:X、Y轴均代表每个样品。颜色代表相关性系数(Pearson’s correlation coefficients),颜色越蓝代表正相关性越高,颜色越红代表负相关性越高;圆圈的大小表示变量重要性(variable importance)
利用Pearson相关系数反映样本间蛋白表达量的相关性,并采用欧式距离进行层次聚类分析(图 5.4.1),该图能够直接反映每个样本之间的关系。
注:热图中的单元格颜色越深,表示对应的两个样本之间的相关性系数越高。同一个小组内的样本应该具有较高的相关性系数。同一个小组内的样本应该具有较高的相关性系数。
## ./2.Differential_expression
## ├── Category1_C.vs.T
## │ ├── Category1_C.vs.T_All.xls
## │ ├── Category1_C.vs.T_DEG.xls
## │ ├── Category1_C.vs.T_Volcano.svg
## │ ├── Category1_C.vs.T_deeseq-density.png
## │ ├── heatmap.png
## │ ├── input.xls
## │ └── table.xls
## ├── Category1_QC.vs.C
## │ ├── Category1_QC.vs.C_All.xls
## │ ├── Category1_QC.vs.C_DEG.xls
## │ ├── Category1_QC.vs.C_Volcano.svg
## │ ├── Category1_QC.vs.C_deeseq-density.png
## │ ├── heatmap.png
## │ ├── input.xls
## │ └── table.xls
## ├── Category1_QC.vs.T
## │ ├── Category1_QC.vs.T_All.xls
## │ ├── Category1_QC.vs.T_DEG.xls
## │ ├── Category1_QC.vs.T_Volcano.svg
## │ ├── Category1_QC.vs.T_deeseq-density.png
## │ ├── heatmap.png
## │ ├── input.xls
## │ └── table.xls
## ├── Vennupset
## │ ├── venn1
## │ ├── venn2
## │ └── venn3
## └── 差异蛋白分析readme.txt
蛋白质差异性分析能够极大地推动发现新的生物标志物,提升生物标志物鉴定的精准度,对分子作用机理、生物标志物、疾病早诊、分子分型、预后以及临床诊断等均具有重要价值。蛋白差异表达的输入数据为蛋白表达丰度表数据。分析时我们采用基于负二项分布的DESeq2进行分析4,具体使用基于BiocManager,getopt,ggplot2,DESeq2等R包的R语言脚本;对各个样本分组进行两两之间的比较,找到在不同分组中表达差异的蛋白。 差异基因的筛选标准是非常重要的,我们给出的标准|log 2 (FoldChange)| > 1 & p值 < 0.05是常用的经验值,也是我们分析流程的默认值。在实际项目中可以根据情况灵活选择,例如,差异倍数可以选择1.5倍,也可以选择3倍,p值常用的阈值包括0.01、0.05、0.1等。若按照以上标准筛选得到的差异基因过少,很有可能导致后面的功能富集分析没有显著性结果。若项目实验只关注某几个基因的表达情况(如基因敲除), 不在意富集结果,从下面的差异分析表格中筛选关注的那几个基因即可。反之, 如果得到的差异基因数目过多,不利于后续目标基因的筛选,这个时候可使用更严格的阈值标准进行筛选。生科云的云流程提供了调整筛选阈值的途径。蛋白表达差异分析结果见下表 6.1。差异蛋白火山图见下图6.1.1,差异倍数密度图见下图6.1.2。
注:注: X轴为log2(FC),Y轴表示蛋白在组间的倍数密度,即该差异倍数下的蛋白数与总数的比例。理论上绝大部分蛋白是不显著差异,所以FC峰值位置应位于0附近,并呈现正态分布。
注: 图中用颜色代表表达量,越红表示蛋白质表达量越高,越蓝表示表达量越低,数据跨度太大会导致差异无法区分,我们对表达量进行标准化处理(减去平均值,除以标准差);聚类到一起的样本表达模式比较接近。
差异蛋白韦恩图是对差异分析结果进行进一步分析展示,summary_up_down.svg(图6.2.1)汇总了各差异蛋白集上调(处理组表达量高于对照组),下调数目(处理组表达量低于对照组)。如果有多个比较方案,多个差异蛋白集,我们将用Venn图和UpSet图(DEG_venn.svg|图6.2.2,DEG_upset.svg|图6.2.3)展示各个差异蛋白集之间的交集大小(共有的差异蛋白数目),以及各个差异蛋白集特有的差异蛋白。Venn图和UpSet图表达的信息是一样的,只是用了不同的数据可视化形式。Venn图最多能展示五个差异蛋白集的关系,而UpSet图能展示的差异蛋白集个数能够更多。 该部分计算并绘制了所选分组所有差异分析结果两两组合的结果,如需3个及以上差异结果的venn图,可在分步骤中操作获取。
注: 图中红色表示表达量上调的蛋白(处理组表达量高于对照组),绿色表示表达量下调的蛋白。
注: 图中每个圈代表一个组间的差异蛋白,重叠部分代表多个组间共同的差异蛋白,非重叠部分代表相应组间特异性的差异蛋白。
注: 图中柱形图表示差异蛋白的数量,下面的黑点,一个表示该差异蛋白集特有的蛋白(补集中该组特有的蛋白),两个点表示两个差异蛋白集共有的蛋白数(交集)。
根据对鉴定到的所有差异蛋白,我们进行了GO、KEGG、结构域等富集分析,目的是检测差异表达蛋白是否在某些功能类型上有显著性的富集趋势。
## ./3.go_enrichment
## ├── Category1_C.vs.T
## │ ├── Category1_C.vs.T
## │ │ ├── Category1_C.vs.T_ALL_barplot.svg
## │ │ ├── Category1_C.vs.T_ALL_cnetplot.svg
## │ │ ├── Category1_C.vs.T_ALL_dotplot.svg
## │ │ ├── Category1_C.vs.T_BP_dagplot.png
## │ │ ├── Category1_C.vs.T_BP_idagplot.svg
## │ │ ├── Category1_C.vs.T_CC_dagplot.png
## │ │ ├── Category1_C.vs.T_CC_idagplot.svg
## │ │ ├── Category1_C.vs.T_GO气泡图.pdf
## │ │ ├── Category1_C.vs.T_MF_dagplot.png
## │ │ ├── Category1_C.vs.T_MF_idagplot.svg
## │ │ ├── Category1_C.vs.T_go_result.txt
## │ │ └── Category1_C.vs.T_go_symbolid.csv
## │ └── Category1_C.vs.T_enrichlist.csv
## ├── Category1_QC.vs.C
## │ ├── Category1_QC.vs.C
## │ │ ├── Category1_QC.vs.C_ALL_barplot.svg
## │ │ ├── Category1_QC.vs.C_ALL_cnetplot.svg
## │ │ ├── Category1_QC.vs.C_ALL_dotplot.svg
## │ │ ├── Category1_QC.vs.C_BP_dagplot.png
## │ │ ├── Category1_QC.vs.C_BP_idagplot.svg
## │ │ ├── Category1_QC.vs.C_CC_dagplot.png
## │ │ ├── Category1_QC.vs.C_CC_idagplot.svg
## │ │ ├── Category1_QC.vs.C_GO气泡图.pdf
## │ │ ├── Category1_QC.vs.C_MF_dagplot.png
## │ │ ├── Category1_QC.vs.C_MF_idagplot.svg
## │ │ ├── Category1_QC.vs.C_go_result.txt
## │ │ └── Category1_QC.vs.C_go_symbolid.csv
## │ └── Category1_QC.vs.C_enrichlist.csv
## ├── Category1_QC.vs.T
## │ ├── Category1_QC.vs.T
## │ │ ├── Category1_QC.vs.T_ALL_barplot.svg
## │ │ ├── Category1_QC.vs.T_ALL_cnetplot.svg
## │ │ ├── Category1_QC.vs.T_ALL_dotplot.svg
## │ │ ├── Category1_QC.vs.T_BP_dagplot.png
## │ │ ├── Category1_QC.vs.T_BP_idagplot.svg
## │ │ ├── Category1_QC.vs.T_CC_dagplot.png
## │ │ ├── Category1_QC.vs.T_CC_idagplot.svg
## │ │ ├── Category1_QC.vs.T_GO气泡图.pdf
## │ │ ├── Category1_QC.vs.T_MF_dagplot.png
## │ │ ├── Category1_QC.vs.T_MF_idagplot.svg
## │ │ ├── Category1_QC.vs.T_go_result.txt
## │ │ └── Category1_QC.vs.T_go_symbolid.csv
## │ └── Category1_QC.vs.T_enrichlist.csv
## └── 蛋白GO富集分析readme.txt
GO 功能显著性富集分析给出与所有鉴定到的蛋白质背景相比,差异蛋白质中显著富集的GO功能条目,从而给出差异蛋白质与哪些生物学功能显著相关。GO分为分子功能(Molecular function)、细胞组分(Cellular component)和生物过程(Biological process)三个部分。该分析首先把所有差异蛋白质向Gene Ontology数据库 (https://www.geneontology.org/)的各个term映射,计算每个term的蛋白质数目,然后应用超几何检验,找出与所有蛋白质背景相比,在差异蛋白质中显著富集的GO条目。其计算公式:
其中N为所有蛋白中具有GO注释信息的蛋白数目,n为N中差异蛋白的数目,M为所有蛋白中注释到某个GO条目的蛋白数目,x为注释到某个GO条目的差异蛋白数目。计算得到p值,以p值小于0.05为阈值,满足此条件的GO term定义为在差异蛋白质中显著富集的GO term。通过GO显著性分析能确定差异蛋白行使的主要生物学功能。差异蛋白GO富集结果见下表。
注:注: 图中显示的是校正p值极显著的前10个子功能,纵坐标是GO三个大类的下一层级的GO term,横坐标为注释到该term下(包括该term的子term)的候选蛋白个数
注: 灰色的点代表基因,灰点下的数字表示该基因的Entrez ID(NCBI上的基因编号),黄色的点代表富集到的GO terms,默认画top5富集到的GO terms,GO节点的大小对应富集到的基因个数
有向无环图(Directed Acyclic Graph,DAG)为候选蛋白GO富集分析结果的图形化展示方式,分支代表包含关系,从上至下所定义的功能范围越来越小,一般选取GO富集分析的结果前10位作为有向无环图的主节点,并通过包含关系,将相关联的GO Term一起展示,矩形代表富集到的前10个GO terms,颜色从黄色过滤到红色,对应p值从大到小。我们的项目中分别绘制生物过程(biological process)、分子功能(molecular function)和细胞组分(cellular component)的候选蛋白DAG图(Directed Acyclic Graph)。