泛基因结果文件说明

结果简介

2005年美国科学家Tettelin在对B群链球菌的研究中首次提出泛基因组的概念，指出不同细菌的株系之间存在明显的差异，单一菌株的遗传信息并不能完整代表该种所有的遗传信息。细菌泛基因组分析可以全面地对细菌种内遗传多样性进行研究，探究不同个体间的进化关系，对重要毒力因子的发现、新疫苗设计等具有重要的应用价值。

泛基因组可分为3部分，核心基因组（core genes ），附属基因组（accessory genes）以及特有基因（specific genes）。核心基因组即所有菌株共有的基因，这些基因参与基础生物学过程，如基因表达、能量产生、氨基酸代谢等。附属基因指存在于部分菌株中的基因，这些基因与物种的多样性有关，赋予个体竞争优势。特有基因只存在于某一菌株中，这些基因一般是通过基因水平转移HGT）而来，通常与该菌株的独特表型特征有关，如对特定环境的适应性，或独特的致病性等。

目录结构

├── accessory_binary_genes.fa 【非核心基因的二进制分布数据，以0/1表示携带或不携带】 ├── accessory_graph.dot 【非核心基因点图】 ├── pangenome_pie 【核心基因和分离物数量的饼图】 ├──pangenome_matrix 【核心基因与基因组数量的关系图】 ├──pangenome_frequency【存在或不存在核心和辅助基因的矩阵相比的树】 ├──accessory_binary_genes.fa 【非核心基因的二进制分布数据，以0/1表示携带或不携带】 ├── accessory.header.embl 【非核心基因数据头信息，以embl格式保存】 ├── accessory.tab 【非核心基因信息】 ├── blast_identity_frequency.Rtab 【blast比对一致性结果的R语言工具】 ├── clustered_proteins【聚类的蛋白质】 ├── clusternap.png【核心基因点图】 ├── core_accessory_graph.dot 【核心基因点图】 ├── core_accessory.header.embl 【embl 格式的文件显示各核心基因】 ├── core_accessory.tab【核心基因在所在的基因组】 ├── core_alignment_header.embl【核心序列比对结果的头信息，以embl格式保存】 ├── core_gene_alignment.aln 【核心基因序列比对】 ├── gene_presence_absence.csv 【csv 格式的基因在各个基因组中是否存在的数据文件】 ├── gene_presence_absence.Rtab【 Rab 格式的基因在各个基因组中是否存在的数据文件】 ├── number_of_conserved_genes.Rtab 【Rtab 格式的不同数量基因组所共有基因数】 ├── number_of_genes_in_pan_genome.Rtab 【Rtab 格式的不同数量基因组的所有基因数】 ├── number_of_new_genes.Rtab 【Rtab 格式的不同数量基因组所新增的基因数】 ├── number_of_unique_genes.Rtab 【Rtab 格式的不同数量基因组所特有基因数】 ├── pan_genome_reference.fa 【这是一个 FASTA 文件，其中包含来自泛基因组（核心和附件）中每个簇的单个代表性核苷酸序列】 └── summary_statistics.txt【核心和附属基因组中的基因数量】

格式说明

由于此部分结果众多，现在只挑出重点文件进行解释，其他文件请参见roary软件结果文件说明和文件说明。

summary_statistics.txt-核心和附属基因组中的基因数量

核心和附属基因的数量。一个文本文件，概述基因及其在输入分离物中出现的频率。如果核心基因的数量为0，则表明你受到了一些污染。同样，如果核心基因总数非常高，说明基因组结构十分相似。

gene_presence_absence.csv

基因存在和缺失电子表格。列出了每个基因及其存在的样本。下面的视图显示了它在Excel中的外观。

列数	列名	描述
1	Gene	该簇中出现频率最高的基因名。如果没有基因名，则赋予通用唯一名称group_XXX。
2	Non-unique gene name	非唯一基因名，其中具有相同基因名的序列分别位于不同的簇中。可能是由于基因分裂或错误注释造成。
3	Annotation	注释。簇中出现频率最高的功能注释。
4	No. isolates	簇中代表的分离菌株数。
5	No. sequences	簇中的序列数。
6	Avg sequences per isolate	平均每个分离菌株的序列数，通常为1。如果大于1，则表示有过度聚类，无法将同源基因分离出来。
7	Genome Fragment	基因组片段，表示基因在contig层面上是相连的。
8	Order within Fragment	片段内顺序，与基因组片段结合使用，给出图形中基因顺序的指示。在Excel中，按列G和H排序。
9	Accessory Fragmene	核心基因，基于contig层面的证据，表示这些基因是相连的。
10	Accessory Order with Fragment	与Accessory Fragment结合使用，给出附属图中基因顺序的指示。在Excel中，按列I和J排序。
11	QC簇质量评价	记录错误预测以及单个基因位于单个contig上的情况，这可能是低水平污染的证据。
12	Min group size nuc	最小序列长度，簇中序列的最小长度（以核苷酸计）。
13	Max group size nuc	最大序列长度，簇中序列的最大长度（以核苷酸计）。
14	Avg group size nuc	平均序列长度，簇中序列的平均长度（以核苷酸计）。
15	基因的存在和缺失	每个样本中基因的存在和缺失情况，包括相应的基因ID。

gene_presence_absence.Rtab-Rab 格式的基因在各个基因组中是否存在的数据文件

这个文件与 gene_presence_absence.csv 文件类似，但它只包含一个简单的制表符分隔二进制矩阵，列出了每个样品中每个基因的存在和缺失情况。可以使用 read.table 函数轻松地将其加载到 R 中，并使用丰富的工具进行分析。第一行是表头，包含每个样品的名称，第一列包含基因名称。1 表示该基因在该样品中存在，0 表示不存在。

pan_genome_reference.fa

这是一个 FASTA 文件，其中包含全基因组（核心和附属）聚类中的每个群集的单个代表性核苷酸序列。每个序列的名称是源序列 ID，后跟其所属的聚类。该文件可用于参考引导组装、全基因组多重序列类型分析或将原始reads映射到该文件。

accessory_binary_genes.fa.newick

这是一棵使用附属基因的二进制存在和缺失情况创建的树。它以 Newick 格式呈现，并可在 FigTree 中查看。这只是一个快速且简单的树，仅根据其附属基因组大致将分离菌株分组，除了快速了解数据外，无法提供可靠的信息。如果您想要更准确的树，则需要使用核心基因的比对结果作为起点。

accessory_graph.dot

这是一个用DOT格式绘制的图形，展示了附属基因组在contig层面上的连接方式。您可以使用 Gephi 查看它。节点对应基因，边表示任何一个输入装配中两个基因相邻的位置。为了生成边上的权重，会统计基因彼此相邻的频率，然后按照附属二进制存在和缺失的整体聚类情况加权（以减少过度代表基因型的偏差），然后将其反转。

core_accessory_graph.dot

这是一个用DOT格式绘制的图形，展示了全基因组在contig层面上的连接方式。您可以使用 Gephi 查看它

clustered_proteins

该文件是一个群集文件，每一行列出了一个聚类中的序列。

note：最主要的统计文件是 summary_statistics.txt，若全部是核心基因组，说明这几个序列基因相似度很高，几乎由相同的组成。