General_Gene_Annotation/
├── CAZy
│   ├── *
│   │   ├── *.CAZy.class.stat.txt [CAZy 数据库注释的结果文件]
│   │   ├── *.CAZy.m8.txt[CAZy 数据库进行 BLAST 比对结果 m8 格式]
│   │   ├── *.CAZy.sumInfo.txt[CAZy 数据库注释的结果文件]
│   │   ├── cazy_summed_up_summary.pdf  [CAZy 数据库六大分类统计图,PDF 格式]
│   │   └── cazy_summed_up_summary.png[CAZy 数据库六大分类统计图,PNG 格式]
├── eggnog
│   ├── *
│   │   └── *.emapper.annotations[eggnog结果文件]
├── GO
│   ├── *
│   │   ├── *.gene_go.txt [GO 注释结果按基因汇总]
│   │   ├── *.go.txt[GO 注释结果按分类汇总]
│   │   ├── *.pdf[GO 分类统计图,pdf格式]
│   │   └── *.png[GO 分类统计图]
├── KEGG
│   ├── *
│   │   ├──*kegg.anno.txt   【KEGG 注释结果】
│   │   ├──*.kegg.catalog.txt 【KEGG按照分类汇总基因结果】
│   │   ├──*.kegg.ko.txt【KEGG按照分类汇总KO结果】
│   │   ├──*_map【网页显示KEGG结果】
│   │   │   ├──*KEGG_Map.html【网页图,KEGG通路和KO结果】
│   │   │   ├── base.css
│   │   │   └──* .png
│   │   ├── *.kegg.txt   [KEGG 注释结果按分类汇总]
│   │   ├── *.pdf[KEGG 分类统计图,pdf格式]
│   │   └── *.png[KEGG分类统计图]
├── nr
│   ├── *
│   │   ├── *.anno.txt [NR 数据库注释的结果文件]
│   │   ├── *.nr.m8.txt[NR 数据库进行 BLAST 比对结果]
│   │   ├── *.nr.species.anno[NR 数据库物种注释的结果]
│   │   ├── *.nr.species.anno.pdf[NR 数据库物种注释统计图,pdf格式]
│   │   └── *.nr.species.anno.png[NR 数据库物种注释统计图]
├── PFAM
│   ├── *
│   │   ├── *.pfam.gene.tsv [Pfam 注释结果按分类汇总]
│   │   ├── *.pfam.tsv[pfam结果文件]
│   │   └── *.pfam.merge.tsv[Pfam 注释结果按基因汇总]
├── swissProt
│   ├── *
│   │   ├── *.swissProt.m8.txt[Swiss-Prot 数据库进行 BLAST 比对结果]
│   │   └── *.swissProt.mergeInfo.txt[Swiss-Prot 数据库注释的结果文件]
└── TCDB
    └── *
        ├── *.TCDB.anno.tsv[TCDB结果注释文件]
        ├── tcdb_summed_up_summary.pdf[TCDB 一级分类统计图]
        ├── tcdb_summed_up_summary.png[TCDB 一级分类统计图]
        ├── *.TCDB.family.catalog.tsv[TCDB 三级家族分类统计列表]
        ├── *.TCDB.m8.txt[ TCDB 数据库进行 BLAST 比对结果]
        └── *.TCDB.sumInfo.txt[ TCDB 一级分类统计列表]

3.6.1.1 GO数据库注释

GO(Gene Onotology),是生物学领域公认的,在分子和细胞层面的英文描述词条的参考规范。比如一个蛋白具有某种功能,尽管这是一种具体的功能,但是不同的人可能会有不同的描述,此时如果大家都采用GO里面的规范词条去描述,那么就不会出现很多偏门或者杂乱的描述词汇。GO促进了人们对生物学知识的交流和理解。 GO数据库是基因本体联合会(Gene Onotology Consortium)所建立的数据库,旨在建立一个适用于各种物种的,对基因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语言词汇标准。
GO提供了一系列的词条(terms),用于描绘基因(基因产物)的特点,这些词条分为3大类:
(1) 细胞学组件(cellular component),用于描述亚细胞结构、位置和大分子复合物,例如外部封装结构(external encapsulating structure)等。
(2) 分子功能(molecular function),用于描述基因(基因产物)的功能,比如蛋白质结合转录因子活性(protein binding transcription factor activity)。
(3) 生物学过程(biological process),指的是分子功能的有序组合以实现更复杂的生物功能,例如树突状细胞的抗原处理和递呈(dendritic cell antigen processing and presentation)。

使用emapper[2]注释工具,将细菌基因组prokka注释结果中的.faa文件的基因蛋白序列作为query查询序列,到eggnog蛋白数据库做比对搜索,获得GO注释信息,用R语言做分类统计。
详细结果说明见GO数据库注释结果说明

图6-1-1 GO注释分类统计图

3.6.1.2 KEGG数据库注释

KEGG数据库于 1995 年由 Kanehisa Laboratories 推出 0.1 版,目前发展为一个综合性数据库,其中最核心的为 KEGG PATHWAY 和 KEGG ORTHOLOGY 数据库。在 KEGG ORTHOLOGY 数据库中,将行使相同功能的基因聚在一起,称为 Ortholog Groups (KO entries),每个 KO 包含多个基因信息,并在一至多个 pathway 中发挥作用。
在 KEGG PATHWAY 数据库中,将生物代谢通路划分为以下6类:
(1) 细胞过程(Cellular Processes)
(2) 环境信息处理(Environmental Information Processing)
(3) 遗传信息处理(Genetic Information Processing)
(4) 人类疾病(Human Diseases)
(5) 新陈代谢(Metabolism)
(6) 生物体系统(Organismal Systems)

我们使用emapper注释工具,将细菌基因组prokka注释结果中的.faa文件的基因蛋白序列作为query查询序列,到eggnog蛋白数据库做比对搜索,获得KEGG_Pathway_map_id注释信息,用R语言做分类统计。 详细结果说明见KEGG数据库注释结果说明

图6-1-2 KEGG pathway分类统计图

3.6.1.3 CAZy数据库注释

碳水化合物活性酶(CAZy)数据库,录入的是能降解、修饰或者生成糖苷键的酶的功能结构域(或称模块)的信息。

CAZy数据库[4]收录了碳水化合物活性酶的两种常见模块的数据信息:
(1)具有催化活性的模块,分为5类
    GH,Glycoside Hydrolases,糖苷水解酶。
    GT,Glycosyl Transferases,糖基转移酶。
    PL,Polysaccharide Lyases,多糖裂解酶。
    CE,Carbohydrate Esterases,碳水化合物酯酶。
    AA,Auxiliary Activities,辅助活性模块(一般是氧化还原酶,跟其它的碳水化合物活性酶共同发生作用)。
(2)结合在催化活性模块之上的其它模块,现有1类
    CBM,Carbohydrate-Binding Modules,与碳水化合物发生结合作用的模块,一般只起到结合作用,而没有催化作用。

我们使用蛋白序列比对工具diamond,将prokka注释得到的.faa文件中的蛋白序列作为查询序列,到CAZy数据库做比对搜索,获得CAZy数据库注释信息,然后用R语言对注释结果做分类统计。
详细结果说明见CAZy数据库注释结果说明

图6-1-3 CAZy数据库注释功能分类统计图

3.6.1.4 SWISS-PROT数据库注释

SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。SWISS-PROT中尽可能减少了冗余序列,并与其它30多个数据建立了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。

我们使用diamond蛋白序列比对工具,将细菌基因组prokka注释结果中的.faa文件的基因蛋白序列作为query查询序列,到Swiss-Prot蛋白数据库做比对搜索,得到细菌的Swiss-Prot蛋白注释信息,生成表格文件。
详细结果说明见SWISS-PROT数据库注释结果说明

3.6.1.5 TCDB数据库注释

TCDB数据库[5](Transporter Classification DataBase)是对转运蛋白进行分类的一个数据库。类似于对酶进行分类的EC系统,TCDB对于每一个转运蛋白家族,提供了一个TC Nmuber, TC Number 由小数点分隔的5段数字或者字母构成。每一段的数字或字母代表某一个层级的分类,第一级分类包括7个大类。目前TCDB提供了超过800个转运蛋白家族, 包含10000多条唯一的蛋白质序列和10000多篇文献。

我们使用diamond比对工具,将细菌基因组prokka注释结果中的.faa文件的基因蛋白序列作为query查询序列,到TCDB数据库做比对搜索,得到细菌的转运蛋白分类注释信息,然后用R语言做分类统计。 详细结果说明见TCDB数据库注释结果说明

图6-1-4 TCDB转运蛋白分类注释统计图

3.6.1.6 PFAM数据库注释

Pfam数据库[3]可以理解为是Protein family蛋白质家族的英文单词的缩写。该数据库主要提供蛋白质结构域家族的分类信息,被广泛用于查询蛋白质结构域注释信息及其多序列比对信息。在该数据库中,每个蛋白结构域家族由多序列比对和HMMs(hidden Markovmodels,隐马尔可夫模型)所组成。Pfam-A根据最新的UniProtKB蛋白序列数据库所构建而成,是人工注释和检查的蛋白结构域信息数据库,可信度较高。pfam_scan是Pfam官网提供的工具软件,用来分析蛋白序列具有哪些结构域。

我们使用pfam_scan分析工具,以Pfam-A数据库作为参考数据库,对细菌基因组prokka注释结果中的.faa文件的基因蛋白序列做注释,得到蛋白质结构域家族注释信息,生成表格文件。
详细结果说明见PFAM数据库注释结果说明

3.6.1.7 nr数据库注释

NR全称为Non-Redundant Protein Database,是一个非冗余的蛋白质数据库,由NCBI创建并维护,其特点在于内容比较全面,同时注释结果中会包含有物种信息,可作物种分类用。
详细结果说明见nr数据库注释结果说明
根据基因注释到的物种情况,统计注释到的物种及基因数目,其统计结果如下图:

图6-1-5 NR 数据库物种注释统计图

分析所用软件的版本

软件 版本
Diamond v2.0.14
eggNOGmapper 104.3
pfam 35.0
CAZy 2022
tcdb 2022
emapper 2.0.1

参考文献

  • [1] Buchfink, Benjamin et al. “Fast and sensitive protein alignment using DIAMOND.” Nature methods vol. 12,1 (2015): 59-60. doi:10.1038/nmeth.3176.
  • [2] Cantalapiedra, Carlos P et al. “eggNOG-mapper v2: Functional Annotation, Orthology Assignments, and Domain Prediction at the Metagenomic Scale.” Molecular biology and evolution vol. 38,12 (2021): 5825-5829. doi:10.1093/molbev/msab293
  • [3] Mistry, Jaina et al. “Pfam: The protein families database in 2021.” Nucleic acids research vol. 49,D1 (2021): D412-D419. doi:10.1093/nar/gkaa913
  • [4] Elodie Drula, Marie-Line Garron, Suzan Dogan, Vincent Lombard, Bernard Henrissat, Nicolas Terrapon, The carbohydrate-active enzyme database: functions and literature, Nucleic Acids Research, Volume 50, Issue D1, 7 January 2022, Pages D571–D577,
  • [5] Saier MH, Reddy VS,el al (2021). The Transporter Classification Database (TCDB): 2021 update. Nucleic Acids Res. 49(D1):D461-7
  • [6] Jaime, H. C. , Kristoffer, F. , Pedro, C. L. , Damian, S. , Juhl, J. L. , & Christian, V. M. , et al. (2016). Fast genome-wide functional annotation through orthology assignment by eggnog-mapper. Molecular Biology & Evolution(8), 2115.