泛基因结果文件说明

结果简介

2005年美国科学家Tettelin在对B群链球菌的研究中首次提出泛基因组的概念,指出不同细菌的株系之间存在明显的差异,单一菌株的遗传信息并不能完整代表该种所有的遗传信息。细菌泛基因组分析可以全面地对细菌种内遗传多样性进行研究,探究不同个体间的进化关系,对重要毒力因子的发现、新疫苗设计等具有重要的应用价值。

泛基因组可分为3部分,核心基因组 (core genes ),附属基因组(accessory genes)以及特有基因 (specific genes)。核心基因组即所有菌株共有的基因,这些基因参与基础生物学过程,如基因表达、能量产生、氨基酸代谢等。附属基因指存在于部分菌株中的基因,这些基因与物种的多样性有关,赋予个体竞争优势。特有基因只存在于某一菌株中,这些基因一般是通过基因水平转移HGT)而来,通常与该菌株的独特表型特征有关,如对特定环境的适应性,或独特的致病性等。

目录结构

├── accessory_binary_genes.fa 【非核心基因的二进制分布数据,以0/1表示携带或不携带】 ├── accessory_graph.dot 【非核心基因点图】 ├── pangenome_pie 【核心基因和分离物数量的饼图】 ├──pangenome_matrix 【核心基因与基因组数量的关系图】 ├──pangenome_frequency【存在或不存在核心和辅助基因的矩阵相比的树】 ├──accessory_binary_genes.fa 【非核心基因的二进制分布数据,以0/1表示携带或不携带】 ├── accessory.header.embl 【非核心基因数据头信息,以embl格式保存】 ├── accessory.tab 【非核心基因信息】 ├── blast_identity_frequency.Rtab 【blast比对一致性结果的R语言工具】 ├── clustered_proteins【聚类的蛋白质】 ├── clusternap.png【核心基因点图】 ├── core_accessory_graph.dot 【核心基因点图】 ├── core_accessory.header.embl 【embl 格式的文件显示各 核心 基因】 ├── core_accessory.tab【核心 基因在所在的基因组】 ├── core_alignment_header.embl【核心序列比对结果的头信息,以embl格式保存】 ├── core_gene_alignment.aln 【核心基因序列比对】 ├── gene_presence_absence.csv 【csv 格式的基因在各个基因组中是否存在的数据文件】 ├── gene_presence_absence.Rtab【 Rab 格式的基因在各个基因组中是否存在的数据文件】 ├── number_of_conserved_genes.Rtab 【Rtab 格式的不同数量基因组所共有基因数】 ├── number_of_genes_in_pan_genome.Rtab 【Rtab 格式的不同数量基因组的所有基因数】 ├── number_of_new_genes.Rtab 【Rtab 格式的不同数量基因组所新增的基因数】 ├── number_of_unique_genes.Rtab 【Rtab 格式的不同数量基因组所特有基因数】 ├── pan_genome_reference.fa 【这是一个 FASTA 文件,其中包含来自泛基因组(核心和附件)中每个簇的单个代表性核苷酸序列】 └── summary_statistics.txt【核心和附属基因组中的基因数量】

格式说明

由于此部分结果众多,现在只挑出重点文件进行解释,其他文件请参见roary软件结果文件说明和文件说明。

summary_statistics.txt-核心和附属基因组中的基因数量

核心和附属基因的数量。一个文本文件,概述基因及其在输入分离物中出现的频率。如果核心基因的数量为0,则表明你受到了一些污染。同样,如果核心基因总数非常高,说明基因组结构十分相似。

gene_presence_absence.csv

基因存在和缺失电子表格。列出了每个基因及其存在的样本。下面的视图显示了它在Excel中的外观。image-20230613143505991

列数列名描述
1Gene 该簇中出现频率最高的基因名。如果没有基因名,则赋予通用唯一名称group_XXX
2Non-unique gene name非唯一基因名,其中具有相同基因名的序列分别位于不同的簇中。可能是由于基因分裂或错误注释造成。
3Annotation注释。簇中出现频率最高的功能注释。
4No. isolates簇中代表的分离菌株数。
5No. sequences簇中的序列数。
6Avg sequences per isolate平均每个分离菌株的序列数,通常为1。如果大于1,则表示有过度聚类,无法将同源基因分离出来。
7Genome Fragment基因组片段,表示基因在contig层面上是相连的。
8Order within Fragment片段内顺序,与基因组片段结合使用,给出图形中基因顺序的指示。在Excel中,按列G和H排序。
9Accessory Fragmene核心基因,基于contig层面的证据,表示这些基因是相连的。
10Accessory Order with Fragment与Accessory Fragment结合使用,给出附属图中基因顺序的指示。在Excel中,按列I和J排序。
11QC簇质量评价记录错误预测以及单个基因位于单个contig上的情况,这可能是低水平污染的证据。
12Min group size nuc最小序列长度,簇中序列的最小长度(以核苷酸计)。
13Max group size nuc最大序列长度,簇中序列的最大长度(以核苷酸计)。
14Avg group size nuc平均序列长度,簇中序列的平均长度(以核苷酸计)。
15基因的存在和缺失每个样本中基因的存在和缺失情况,包括相应的基因ID。

gene_presence_absence.Rtab-Rab 格式的基因在各个基因组中是否存在的数据文件

这个文件与 gene_presence_absence.csv 文件类似,但它只包含一个简单的制表符分隔二进制矩阵,列出了每个样品中每个基因的存在和缺失情况。可以使用 read.table 函数轻松地将其加载到 R 中,并使用丰富的工具进行分析。第一行是表头,包含每个样品的名称,第一列包含基因名称。1 表示该基因在该样品中存在,0 表示不存在。

pan_genome_reference.fa

这是一个 FASTA 文件,其中包含全基因组(核心和附属)聚类中的每个群集的单个代表性核苷酸序列。每个序列的名称是源序列 ID,后跟其所属的聚类。该文件可用于参考引导组装、全基因组多重序列类型分析或将原始reads映射到该文件。

accessory_binary_genes.fa.newick

这是一棵使用附属基因的二进制存在和缺失情况创建的树。它以 Newick 格式呈现,并可在 FigTree 中查看。这只是一个快速且简单的树,仅根据其附属基因组大致将分离菌株分组,除了快速了解数据外,无法提供可靠的信息。如果您想要更准确的树,则需要使用核心基因的比对结果作为起点。

accessory_graph.dot

这是一个用DOT格式绘制的图形,展示了附属基因组在contig层面上的连接方式。您可以使用 Gephi 查看它。节点对应基因,边表示任何一个输入装配中两个基因相邻的位置。为了生成边上的权重,会统计基因彼此相邻的频率,然后按照附属二进制存在和缺失的整体聚类情况加权(以减少过度代表基因型的偏差),然后将其反转。

core_accessory_graph.dot

这是一个用DOT格式绘制的图形,展示了全基因组在contig层面上的连接方式。您可以使用 Gephi 查看它

clustered_proteins

该文件是一个群集文件,每一行列出了一个聚类中的序列。

 

note:最主要的统计文件是 summary_statistics.txt,若全部是核心基因组,说明这几个序列基因相似度很高,几乎由相同的组成。