2005年美国科学家Tettelin在对B群链球菌的研究中首次提出泛基因组的概念,指出不同细菌的株系之间存在明显的差异,单一菌株的遗传信息并不能完整代表该种所有的遗传信息。细菌泛基因组分析可以全面地对细菌种内遗传多样性进行研究,探究不同个体间的进化关系,对重要毒力因子的发现、新疫苗设计等具有重要的应用价值。
泛基因组可分为3部分,核心基因组 (core genes ),附属基因组(accessory genes)以及特有基因 (specific genes)。核心基因组即所有菌株共有的基因,这些基因参与基础生物学过程,如基因表达、能量产生、氨基酸代谢等。附属基因指存在于部分菌株中的基因,这些基因与物种的多样性有关,赋予个体竞争优势。特有基因只存在于某一菌株中,这些基因一般是通过基因水平转移HGT)而来,通常与该菌株的独特表型特征有关,如对特定环境的适应性,或独特的致病性等。
├── accessory_binary_genes.fa 【非核心基因的二进制分布数据,以0/1表示携带或不携带】 ├── accessory_graph.dot 【非核心基因点图】 ├── pangenome_pie 【核心基因和分离物数量的饼图】 ├──pangenome_matrix 【核心基因与基因组数量的关系图】 ├──pangenome_frequency【存在或不存在核心和辅助基因的矩阵相比的树】 ├──accessory_binary_genes.fa 【非核心基因的二进制分布数据,以0/1表示携带或不携带】 ├── accessory.header.embl 【非核心基因数据头信息,以embl格式保存】 ├── accessory.tab 【非核心基因信息】 ├── blast_identity_frequency.Rtab 【blast比对一致性结果的R语言工具】 ├── clustered_proteins【聚类的蛋白质】 ├── clusternap.png【核心基因点图】 ├── core_accessory_graph.dot 【核心基因热点图】 ├── core_accessory.header.embl 【embl 格式的文件显示各 核心 基因】 ├── core_accessory.tab【核心 基因在所在的基因组】 ├── core_alignment_header.embl【核心序列比对结果的头信息,以embl格式保存】 ├── core_gene_alignment.aln 【核心基因序列比对】 ├── gene_presence_absence.csv 【csv 格式的基因在各个基因组中是否存在的数据文件】 ├── gene_presence_absence.Rtab【 Rab 格式的基因在各个基因组中是否存在的数据文件】 ├── number_of_conserved_genes.Rtab 【Rtab 格式的不同数量基因组所共有基因数】 ├── number_of_genes_in_pan_genome.Rtab 【Rtab 格式的不同数量基因组的所有基因数】 ├── number_of_new_genes.Rtab 【Rtab 格式的不同数量基因组所新增的基因数】 ├── number_of_unique_genes.Rtab 【Rtab 格式的不同数量基因组所特有基因数】 ├── pan_genome_reference.fa 【这是一个 FASTA 文件,其中包含来自泛基因组(核心和附件)中每个簇的单个代表性核苷酸序列】 └── summary_statistics.txt【核心和附属基因组中的基因数量】
由于此部分结果众多,现在只挑出重点文件进行解释,其他文件请参见roary软件结果文件说明和文件说明。
表示各个基因组中有核心基因的比例,比例越高,基因组相似性越高,变异性越小。
核心和附属基因的数量。一个文本文件,概述基因及其在输入分离物中出现的频率。如果核心基因的数量为0,则表明你受到了一些污染。同样,如果核心基因总数非常高,说明基因组结构十分相似。
基因存在和缺失电子表格。列出了每个基因及其存在的样本。下面的视图显示了它在Excel中的外观。
列数 | 列名 | 描述 |
---|---|---|
1 | Gene | 该簇中出现频率最高的基因名。如果没有基因名,则赋予通用唯一名称group_XXX。 |
2 | Non-unique gene name | 非唯一基因名,其中具有相同基因名的序列分别位于不同的簇中。可能是由于基因分裂或错误注释造成。 |
3 | Annotation | 注释。簇中出现频率最高的功能注释。 |
4 | No. isolates | 簇中代表的分离菌株数。 |
5 | No. sequences | 簇中的序列数。 |
6 | Avg sequences per isolate | 平均每个分离菌株的序列数,通常为1。如果大于1,则表示有过度聚类,无法将同源基因分离出来。 |
7 | Genome Fragment | 基因组片段,表示基因在contig层面上是相连的。 |
8 | Order within Fragment | 片段内顺序,与基因组片段结合使用,给出图形中基因顺序的指示。在Excel中,按列G和H排序。 |
9 | Accessory Fragmene | 核心基因,基于contig层面的证据,表示这些基因是相连的。 |
10 | Accessory Order with Fragment | 与Accessory Fragment结合使用,给出附属图中基因顺序的指示。在Excel中,按列I和J排序。 |
11 | QC簇质量评价 | 记录错误预测以及单个基因位于单个contig上的情况,这可能是低水平污染的证据。 |
12 | Min group size nuc | 最小序列长度,簇中序列的最小长度(以核苷酸计)。 |
13 | Max group size nuc | 最大序列长度,簇中序列的最大长度(以核苷酸计)。 |
14 | Avg group size nuc | 平均序列长度,簇中序列的平均长度(以核苷酸计)。 |
15 | 基因的存在和缺失 | 每个样本中基因的存在和缺失情况,包括相应的基因ID。 |
这个文件与 gene_presence_absence.csv 文件类似,但它只包含一个简单的制表符分隔二进制矩阵,列出了每个样品中每个基因的存在和缺失情况。可以使用 read.table 函数轻松地将其加载到 R 中,并使用丰富的工具进行分析。第一行是表头,包含每个样品的名称,第一列包含基因名称。1 表示该基因在该样品中存在,0 表示不存在。
这是一个 FASTA 文件,其中包含全基因组(核心和附属)聚类中的每个群集的单个代表性核苷酸序列。每个序列的名称是源序列 ID,后跟其所属的聚类。该文件可用于参考引导组装、全基因组多重序列类型分析或将原始reads映射到该文件。
这是一棵使用附属基因的二进制存在和缺失情况创建的树。它以 Newick 格式呈现,并可在 FigTree 中查看。这只是一个快速且简单的树,仅根据其附属基因组大致将分离菌株分组,除了快速了解数据外,无法提供可靠的信息。如果您想要更准确的树,则需要使用核心基因的比对结果作为起点。
这是一个用DOT格式绘制的图形,展示了附属基因组在contig层面上的连接方式。您可以使用 Gephi 查看它。节点对应基因,边表示任何一个输入装配中两个基因相邻的位置。为了生成边上的权重,会统计基因彼此相邻的频率,然后按照附属二进制存在和缺失的整体聚类情况加权(以减少过度代表基因型的偏差),然后将其反转。
这是一个用DOT格式绘制的图形,展示了全基因组在contig层面上的连接方式。您可以使用 Gephi 查看它
note:最主要的统计文件是 summary_statistics.txt,若全部是核心基因组,说明这几个序列基因相似度很高,几乎由相同的组成。