SNP结果文件说明

结果简介

Single Nucleotide Polymorphisms (SNPs) 是指基因组中特定位置的单个核苷酸(A、T、C 或 G)的遗传变异。在细菌中,SNPs 可通过多种机制产生,如点突变、重组事件或水平基因转移。SNPs 可用作分子标记,用于研究细菌群体的遗传多样性,并可用于跟踪疫情期间病原菌的传播。

为了在细菌基因组中识别 SNPs,一种常见的方法是使用生物信息学工具,如 Snippy,将参考基因组的序列与其他菌株或分离物的序列进行比较。Snippy 通过比较样本的比对序列与参考基因组的序列来识别 SNPs。基于变异等位基因的存在和序列支持的质量,可以确定样本与参考基因组之间的 SNPs。

Snippy 产生的 SNP 结果可以提供有关细菌群体的遗传多样性以及不同菌株或分离物之间的进化关系的宝贵见解。通过确定不同细菌之间的具体 SNPs,研究人员可以开始了解与毒力、抗生素抗性或其他重要特征相关的遗传变化。

除了识别 SNPs 外,Snippy 还可以生成 FASTA 格式的核心基因组比对。这个比对可以用于构建系统发育树,帮助研究人员可视化不同细菌之间的进化关系。

目录结构

SNP

├── all_snp.sum.tsv【SNPs结果汇总】 └── ** ├── snps.gff 【SNPs结果gff格式】 ├── snps.tab【SNPs结果tab格式】 └── snps.vcf 【SNPs结果vcf格式】

格式说明

all_snp.sum.tsv–SNPs结果汇总

制表符分割的文本文档,使用 excel 打开。

分别统计SNPs结果信息。文件内容实例如下:

image-20230613110424680

文件内容说明如下:

列数列标题说明
1sample样本名
2COMPLEX_num复杂SNP数量
3DEL_num删除数量
4INS_num插入数量
5SNP_numSNP数量
6Total_num总共数量
7referce参考基因组

snps.gff -SNPs结果gff格式

制表符分割的文本文档,使用 excel 打开。

分别统计SNPs结果信息。所生成的 .gff 文件是一种用于描述基因组注释信息的格式。关文件内容实例如下:

image-20230613140013964

文件内容说明如下:

列数列名描述
1seqid序列标识符,表示此条目所在的基因组序列
2source特征来源,表示特征是如何获得的
3type序列特征类型,如 gene、CDS、exon、mRNA 等,在 Snippy 的结果中通常为 SNP
4start特征在基因组序列上的起始位置
5end特征在基因组序列上的结束位置
6score特征的评分,在 snps.gff 文件中,这个值通常为 .,表示不适用或未知
7strand特征所在的链。可能的取值为 +(正链)或 -(负链)或.
8phase编码阶段,在 snps.gff 文件中,这个值通常为 .或0,表示不适用或未知
9attributes一组键值对,用于提供特征的额外信息

其中,note=snp T=>A A:20 T:0attributes 列的一部分。note=snp 表示该条目是一个 SNP。T=>A 表示参考序列中的碱基(T)发生了突变,变成了另一个碱基(A)。A:20T:0 分别表示在这个位置上,有 20 个 A 和 0 个 T。这意味着,在这个特定的 SNP 位置,所有的测序数据都支持 A 而非 T。只是序列模拟测序时推测的。

snps.tab-SNPs结果tab格式

制表符分割的文本文档,使用 excel 打开。

分别统计SNPs结果信息。所生成的 .tab 文件是一种用于描述基因组注释信息的格式。关文件内容实例如下:

image-20230613140507940

文件内容说明如下:

 

列数列名描述
1CHROM染色体
2POS位置
3TYPE突变类型
4REF参考位点信息
5ALT突变位点信息
6EVIDENCE证据
7FTYPEClass of feature affected: CDS tRNA rRNA ...(通常为空白,下同)
8STRANDStrand the feature was on: + - .
9NT_POSNucleotide position of the variant withinthe feature / Length in nt
10AA_POSResidue position / Length in aa (only if FTYPE is CDS)
11LOCUS_TAGThe of the feature (if it existed)/locus_tag
12GENEThe tag of the feature (if it existed)/gene
13PRODUCTThe tag of the feature (if it existed)/product
14EFFECTThe annotated consequence of this variant (ANN tag in .vcf)snpEff
   

snps.vcf -SNPs结果vcf格式

.vcf 文件是存储SNP(单核苷酸多态性)信息的一种标准文件格式。

其各列含义如下:

 

列数列名描述
1CHROM染色体名称
2POS变异位点在参考基因组中的位置
3ID变异位点的ID
4REF参考基因组中的碱基
5ALT发生的替代碱基
6QUAL变异位点的质量得分
7FILTER过滤信息, 通过过滤的变异位点此栏为空
8INFO附加信息, 包含注释、亚群频率等
9FORMAT样品信息栏格式
10Sample1/sample2第N个样品的基因型信息
   

附录:

SNPs结果分类结果解释如下:

TypeNameExample
snpSingle Nucleotide PolymorphismA => T
mnpMultiple Nuclotide PolymorphismGC => AT
insInsertionATT => AGTT
delDeletionACGG => ACG
complexCombination of snp/mnpATTC => GTTA

目录