微科盟_TMT定量蛋白质组_分析报告


一、分析概述

TMT(Tandem Mass Tags,TMT)技术是由Thermo SCIENTIFIC公司研发的一种体外同重同位素标记的相对与绝对定量技术[1]。该技术利用多种同位素试剂标记蛋白多肽N末端或赖氨酸侧链基团,经高精度质谱仪串联分析,可同时比较多达16种样品之间的蛋白表达量,是近年来定量蛋白质组学常用的高通量筛选技术。下图为TMT定量技术原理图:


二、实验流程

从组织样品到最终数据获得的过程中,蛋白的提取、定量、检测、酶切与除盐[2]、标记(适用于iTRAQ和TMT)、修饰肽段富集(适用于修饰蛋白质组)、馏分分离和质谱检测[3]每一个环节都会对数据质量和数量产生影响,而数据质量又会直接影响后续信息分析的结果。为了从源头上保证测序数据的准确性、可靠性,我们对每一个实验步骤都严格把控,从根本上确保了高质量数据的产出,流程图如下(具体实验步骤见附录):


三、信息分析流程

基于质谱检测得到的Raw文件,进行对应数据库的搜索,然后基于数据库搜索的结果进行蛋白质鉴定,同时进行肽段、蛋白和母离子质量容差分布分析来评定质谱检测数据的质量;对鉴定到的蛋白进行常见功能数据库注释,接下来进行蛋白质的定量分析,包括鉴定到的蛋白质总体差异分析和差异蛋白的筛选及表达模式聚类分析;最后针对筛选出来的差异蛋白进行GO、KEGG功能富集分析和互作网络分析等一系列的差异蛋白功能分析。信息分析流程如下图:

注:
1)蛋白质搜索需老师提供相应物种数据库;
2)若无生物学重复,则不能进行重复性分析;
3)与转录组的关联分析需老师提供转录组数据;
4)此分析流程图包括该产品的所有分析内容,本项目具体分析内容以此报告为准。

四、鉴定蛋白基本分析

4.1 鉴定蛋白数柱形图

采用柱形图来展示各样本中鉴定到的总蛋白数目。


4.2 鉴定蛋白数定量值累积分布图

对蛋白定量值从高到低进行排序后做出累积分布图,可以用来展示每种蛋白质定量值对总蛋白质的累积贡献,一般按照样本组进行分组画图分析。

注:
X 轴表示蛋白定量值从高到低排序后蛋白对应坐标位置,Y 轴表示蛋白定量值从高到低排序后累积占比,可观察出定量值高的蛋白对整体蛋白量的贡献度;颜色表示不同条件组。

4.3 鉴定蛋白数 Rank 图

对蛋白定量值从高到低进行排序后画图。可以用来展示鉴定总蛋白数、定量值数量级、以及不同条件组之间定量值分布程度。

注:
X 轴表示蛋白定量值从高到低排序后蛋白对应坐标位置,Y 轴表示蛋白定量值进行log10 计算,本项目实现了近 5 个数量级定量值跨度的设别;颜色表示不同条件组。

五、蛋白定量分析

5.1 数据标准化

蛋白定量值采用 quantile 进行 normalization,消除加样量、仪器操作等引起的样品间蛋白定量值误差。根据表达量信息,本项目采取箱线图展示各样品蛋白表达量水平的分布情况,可观察到矫正前后数据分布的分散程度(矫正前图5.1.1,矫正后图5.1.2)。

图 5.1.1:蛋白原始定量值分布


注:
图中为相应样本中所有蛋白原始定量值分布图,可见样本间蛋白定量值分布并不完全相同,需采用矫正方法消除非生物学差异,横坐标是样本,纵坐标是蛋白定量值。

图 5.1.2:蛋白矫正后定量值分布


注:
图中为相应样本中所有蛋白矫正后定量值分布图,数据矫正后各样本蛋白定量值水平保持一致,说明矫正后结果较好。X 轴横坐标代表样本,Y 轴纵坐标代表蛋白定量值。


变异系数(Coefficient of Variance,CV)或相对标准差(Relative Standard Deviation,RSD),是标准差与均值的比率,可以用来衡量样品中各测量值变异程度的一个统计量,反映出数据的离散程度,判定重复性好坏的指标。CV 值或 RSD 值越小说明重复性越好。如果有生物学重复样本,则有此分析,结果见下图5.3。

图 5.1.3:数据矫正前后 RSD 系数分布



5.2 PCA 分析

主成分分析(PCA)是将多个变量通过降维为少数几个相互独立的变量(即主成分),同时尽可能多地保留原始数据信息的一种多元统计分析方法。
在蛋白组分析中,PCA 将样本所包含的大量蛋白表达量信息降维为少数几个互相无关的主成分,以进行样本间的比较,方便找出离群样品、判别相似性高的样品簇等。较好的分析结果为组内样本聚集在一起,组间样本分离。
我们对样本不同分组中蛋白的丰度进行主成分分析,将样本分组特征进行降维后,选取 2 个及 3 个主成分来描述蛋白在不同分组中的特异性表达情况。

图5.2.1 样品分组PCA二维分析图


图5.2.2 样品分组PCA三维分析图


5.3 Pearson 相关性分析

为了反映样本间蛋白表达的相关性,本研究计算了每两个样品之间所有定量蛋白表达量的 Pearson 相关系数,并将这些系数以热图的形式反映出来,如下图5.3.1所示。右上三角为样本之间 Pearson 相关性值颜色表示,值参考右边条带图。左下三角为相关性系数值,值越高,说明相似程度越高(最大值为 1)。

图 5.3:Pearson 相关性


注:
X、Y 轴均代表每个样品。颜色代表相关性系数(颜色越蓝代表正相关性越高,颜色越红代表负相关性越高)。

5.4 层次聚类

表达模式相似的蛋白通常具有功能相关性,我们利用热图,以欧式距离为矩阵计算公式,对样品表达蛋白和样品同时进行层次聚类。

图5.4.2:蛋白表达量层次聚类


注:
x 轴的每个坐标代表每个样本。下方 x 轴标尺为样本名,上侧色条每个颜色代表一个样本分组。色条图注见右侧。右侧颜色条从蓝到红色的渐变代表表达水平的高低,蓝色越深代表表达水平越低,相反,红色颜色越深代表表达水平越高。

六、差异表达蛋白分析

6.1 差异蛋白筛选

蛋白质差异性分析能够极大地推动发现新的生物标志物,提升生物标志物鉴定的精准度,对分子作用机理、生物标志物、疾病早诊、分子分型、预后以及临床诊断等均具有重要价值。
蛋白差异表达的输入数据为蛋白表达丰度表数据。对于有生物学重复的样品,分析我们采用基于负二项分布的 DESeq2 进行分析[10],具体使用基于 BiocManager,getopt,ggplot2,DESeq2 等 R 包的 R语言脚本;对各个样本分组进行两两之间的比较,找到在不同分组中表达差异的蛋白。
当样品有生物学重复时,默认差异蛋白的筛选条件为:pvalue<0.05。
当样品无生物学重复时,差异蛋白数目会偏多,为了控制假阳性率,需qvalue结合foldchange来筛选,默认差异蛋白筛选条件为: pvalue<0.05 && |log2(foldchange)|>1。 差异蛋白火山图见下图6.1.1,差异倍数密度图见下图6.1.2。

蛋白表达差异分析结果请单击链接查看蛋白表达差异分析结果表格文件。

注:
1)names: 蛋白id。
2)baseMean:样本标准化 counts 的均值。
3)log2.FoldChange.:log2(Sample1/Sample2)。
4)p.value:p 值。
5)padj:p 值经过多重校验校正后的值。

图6.1.1差异蛋白火山图

注:
横坐标代表 蛋白在不同实验组中/不同样品中表达倍数变化,纵坐标代表 蛋白表达量变化的统计学显著程度,图中的散点代表各个蛋白。灰色圆点表示无显著性差异的蛋白,红色圆点表示显著上调的差异蛋白,绿色圆点表示显著下调的差异蛋白。

图 6.1.2 差异倍数密度图


注:
X 轴为 log2(FC),Y 轴表示蛋白在组间的倍数密度,即该差异倍数下的蛋白数与总数的比例。理论上绝大部分蛋白是不显著差异,所以 FC 峰值位置应位于 0附近,并呈现正态分布。

6.2 差异蛋白维恩图

当有大于等于两个小于 5 个不同分组的分析,将各分组比较得出的差异蛋白进行覆盖比较,画成韦恩图,直观展现出各个比较组合共有的及特有的差异蛋白数目。

图 6.2 分组间差异蛋白维恩图


七、差异蛋白功能富集分析

根据对鉴定到的所有差异蛋白,我们进行了 GO、KEGG、结构域等富集分析,目的是检测差异表达蛋白是否在某些功能类型上有显著性的富集趋势。

7.1 差异表达蛋白 GO 富集分析

7.1.1 GO 富集分析结果

GO 功能显著性富集分析给出与所有鉴定到的蛋白质背景相比,差异蛋白质中显著富集的 GO 功能条目,从而给出差异蛋白质与哪些生物学功能显著相关。GO 分为分子功能(Molecular function)、细胞组分(Cellular component)和生物过程(Biological process)三个部分。该分析首先把所有差异蛋白质向Gene Ontology 数据库(http://www.geneontology.org/)的各个 term 映射,计算每个 term 的蛋白质数目,然后应用超几何检验,找出与所有蛋白质背景相比,在差异蛋白质中显著富集的 GO 条目。其计算公式:

其中 N 为所有蛋白中具有 GO 注释信息的蛋白数目,n 为 N 中差异蛋白的数目,M 为所有蛋白中注释到某个 GO 条目的蛋白数目,x 为注释到某个 GO条目的差异蛋白数目。计算得到 P-value 值,以 P-value<0.05 为阈值,满足此条件的 GO term 定义为在差异蛋白质中显著富集的 GO term。通过 GO 显著性分析能确定差异蛋白行使的主要生物学功能。

请单击链接查看差异蛋白 GO 富集结果表格文件。

注:
(1)GO ID: Gene Ontology数据库中唯一的标号信息
(2)Description :Gene Ontology功能的描述信息
(3)GeneRatio:差异基因中与该Term相关的基因数与整个差异基因总数的比值
(4)BgRation:背景(所有)基因中与该Term相关的基因数与所有( 所有)基因的比值
(5)pvalue: 富集分析统计学显著水平,一般情况下, P-value < 0.05 该功能为富集项
(6)p.adjust 矫正后的P-Value
(7)qvalue:对p值进行统计学检验的q值
(8)Count:差异基因中与该Term相关的基因数

图 7.1 候选蛋白GO富集柱状图

注:
图中显示的是矫正P值极显著的前20个子功能,纵坐标是坐标为GO三个大类的下一层级的GO term,横坐标为注释到该term下(包括该term的子term)的候选蛋白个数。

7.1.2 有向无环图

有向无环图(Directed Acyclic Graph,DAG)为候选蛋白GO富集分析结果的图形化展示方式,分支代表包含关系,从上至下所定义的功能范围越来越小,一般选取GO富集分析的结果前10位作为有向无环图的主节点,并通过包含关系,将相关联的GO Term一起展示,矩形代表富集到的top10个GO terms, 颜色从黄色过滤到红色,对应p值从大到小。我们的项目中分别绘制生物过程(biological process)、分子功能(molecular function)和细胞组分(cellular component)的候选蛋白DAG图(Directed Acyclic Graph)。

图 7.2 GO富集有向无环图

注:
每个方框或圆圈代表一个GO term,放大之后其中内容从上到下,代表的含义依次为:GOterm的id、GO的描述、GO富集的Pvalue、该GO下候选蛋白的数目/该GO下背景基因的数P10的GO,颜色的深浅代表富集程度,颜色越深就表示富集程度越高。(三张图为一组比较所得,从上到下顺序依次为依次为“生物学过程”,“细胞成分”,“分子功能”

Cellular component解释的是基因存在在哪里,在细胞质还是在细胞核?如果存在细胞质那在哪个细胞器上?如果是在线粒体中那是存在线粒体膜上还是在线粒体的基质当中?这些信息都叫Cellular component。
Biological process是在说明该基因参与了哪些生物学过程,比如,它参与了rRNA的加工或参与了DNA的复制,这些信息都叫Biological process
Molecular function在讲该基因在分子层面的功能是什么?它是催化什么反应的?

7.1.3 GO富集条目在 PubMed 上的趋势分析

抓取前5条富集GO ONTOLOGY条目在 PubMed 上2012年至今的已发表文章数量/比例并绘制成折线图。如下:

图 7.3 PubMed 趋势分析线线图(GO富集条目)

7.2 候选蛋白KEGG通路分析

在生物体内,不同基因相互协调行使其生物学功能,通过Pathway显著性富集能确定候选蛋白参与的最主要生化代谢途径和信号转导途径。KEGG(Kyoto Encyclopedia of Genes and Genomes)是有关Pathway的主要公共数据库[13]。Pathway显著性富集分析以KEGG Pathway为单位,应用超几何检验,找出与整个基因组背景相比,在候选蛋白中显著性富集的Pathway。该分析的计算公式:

其中,N为所有基因中具有Pathway注释的基因数目;n为N中候选蛋白的数目;M为所有基因中注释为某特定Pathway的基因数目;m为注释为某特定Pathway的候选蛋白数目。用BH的方法对p-value进行校正,得到的校正后的P-value 值越小代表越显著。这里将值小于0.05的Pathway定义为在候选蛋白中显著富集的Pathway。候选蛋白KEGG富集散点图是KEGG富集分析结果的图形化展示方式。

9.3.1 KEGG分析结果

请单击链接查看差异蛋白 KEGG 富集结果表格文件。

注:
(1)ID: KEGG 数据库中通路唯一的编号信息。
(2)Description :Gene Ontology功能的描述信息
(3)GeneRatio:差异基因中与该Term相关的基因数与整个差异基因总数的比值
(4)BgRation:所有( bg)基因中与该ID相关的基因数与所有( bg)基因的比值
(5)pvalue: 富集分析统计学显著水平,一般情况下, P-value < 0.05 该功能为富集项
(6)p.adjust 矫正后的P-Value
(7)qvalue:对p值进行统计学检验的q值
(8)Count:差异基因中与该Term相关的基因数

图 7.4 候选蛋白KEGG富集散点图

在此图中,KEGG富集程度通过Gene Ratio 、p.adjust和富集到此通路上的基因个数来衡量。
其中Gene Ratio 指差异表达的基因中位于该pathway条目的基因数目与所有有注释基因中位于该pathway条目的基因总数的比值。Rich factor越大,表示富集的程度越大。
p.adjust是矫正后的P-Value。
我们挑选了富集前20位的pathway条目在该图中进行展示,若富集的pathway条目不足20条,则全部展示

7.2.2 KEGG富集通路代谢图

图 7.5 候选蛋白KEGG富集通路图

K+num(基因ID号,表示在所有同源物种中具有相似结构或功能的一类同源蛋白)。如K01012=>生物素合成酶
ko+num(代谢通路名称,表示一个特定的生物路径)如:ko0078 => 生物素代谢通路
M + num(模块名称) M00123 => 生物素合成模块
C+num(化合物名)
E -.-.-.-(酶名)EC2.1.1.116 => 生物素合成酶(其实也就是k01012)
R+num(反应名)
RC+num(反应类型)
RP+num(反应物质对)

7.2.3富集通路在 PubMed 上的趋势分析

抓取前5条富集KEGG通路在 PubMed 上2012年至今的已发表文章数量/比例并绘制成折线图。如下:

图 7.6 PubMed 趋势分析线线图(KEGG富集条目)

7.3 结构域富集分析

蛋白质结构域是指在不同蛋白质分子中重复出现的某些组分,具有相似的序列、结构和功能,是蛋白质进化的单元。结构域的长度通常在 25 个氨基酸和500 个氨基酸长度之间[5]。结构域富集可以找出在统计上显著富集的结构域条目。该功能或者定位有可能与造成差异的原因有关。蛋白的结构域富集结果见下表及下图。

请单击链接查看差异蛋白结构域富集结果表格文件。

注:
(1) ID:富集的 Pfam 的 ID
(2) Description:富集的 Pfam 名称
(3) Count:富集到的蛋白数目
(4) Percent:富集到的蛋白百分比
(第一行为富集到的蛋白总数及占所有蛋白的百分比)

图7.7 蛋白结构域富集条形图

八、 参考文献

[1] Wu J, An Y, Pu H, Shan Y, Ren X, An M, Wang Q, Wei S, Ji J. Enrichment ofserum low-molecular-weight proteins using C18 absorbent under urea/dithiothreitoldenatured environment. Anal Biochem. 2010 Mar 1;398(1):34-44.
[2] Wu J, Xie X, Liu Y, He J, Benitez R, Buckanovich RJ, Lubman DM.Identification and confirmation of differentially expressed fucosylated glycoproteinsin the serum of ovarian cancer patients using a lectin array and LC-MS/MS. JProteome Res. 2012 Sep 7;11(9):4541-52.
[3] Ashburner M, Ball CA, Blake JA, Botstein D, Butler H, Cherry JM, Davis AP,Dolinski K, Dwight SS, Eppig JT, Harris MA, Hill DP, Issel-Tarver L, Kasarskis A,Lewis S, Matese JC, Richardson JE, Ringwald M, Rubin GM, Sherlock G. Geneontology: tool for the unification of biology. The Gene Ontology Consortium. NatGenet. 2000 May;25(1):25-9.
[4] Kanehisa M, Goto S, Kawashima S, Okuno Y, Hattori M. The KEGG resourcefor deciphering the genome. Nucleic Acids Res. 2004 Jan 1;32(Databaseissue):D277-80.[5] Finn RD, Bateman A, Clements J, Coggill P, Eberhardt RY, Eddy SR, Heger A,Hetherington K, Holm L, Mistry J, Sonnhammer EL, Tate J, Punta M. Pfam: the48protein families database. Nucleic Acids Res. 2014 Jan;42(Database issue):D222-30.
[6] Szklarczyk D, Gable AL, Lyon D, Junge A, Wyder S, Huerta-Cepas J, SimonovicM, Doncheva NT, Morris JH, Bork P, Jensen LJ, Mering CV. STRING v11: proteinprotein association networks with increased coverage, supporting functionaldiscovery in genome-wide experimental datasets. Nucleic Acids Res. 2019 Jan8;47(D1):D607-D613.
[7] Shannon P, Markiel A, Ozier O, Baliga NS, Wang JT, Ramage D, Amin N,Schwikowski B, Ideker T. Cytoscape: a software environment for integrated modelsof biomolecular interaction networks. Genome Res. 2003 Nov;13(11):2498-504.
[8] Subramanian A, Tamayo P, Mootha VK, Mukherjee S, Ebert BL, Gillette MA,Paulovich A, Pomeroy SL, Golub TR, Lander ES, Mesirov JP. Gene set enrichmentanalysis: a knowledge-based approach for interpreting genome-wide expressionprofiles. Version 2. Proc Natl Acad Sci U S A. 2005 Oct 25;102(43):15545-50.
[9] Mootha VK, Lindgren CM, Eriksson KF, Subramanian A, Sihag S, Lehar J,Puigserver P, Carlsson E, Ridderstråle M, Laurila E, Houstis N, Daly MJ, PattersonN, Mesirov JP, Golub TR, Tamayo P, Spiegelman B, Lander ES, Hirschhorn JN,Altshuler D, Groop LC. PGC-1alpha-responsive genes involved in oxidative phosphorylation are coordinately downregulated in human diabetes. Nat Genet. 2003Jul;34(3):267-73.


九、 联系我们

地址:广东省深圳市南山区留仙大道1201号大学城创客小镇

邮编:518055