Single Nucleotide Polymorphisms (SNPs) 是指基因组中特定位置的单个核苷酸(A、T、C 或 G)的遗传变异。在细菌中,SNPs 可通过多种机制产生,如点突变、重组事件或水平基因转移。SNPs 可用作分子标记,用于研究细菌群体的遗传多样性,并可用于跟踪疫情期间病原菌的传播。
为了在细菌基因组中识别 SNPs,一种常见的方法是使用生物信息学工具,如 Snippy,将参考基因组的序列与其他菌株或分离物的序列进行比较。Snippy 通过比较样本的比对序列与参考基因组的序列来识别 SNPs。基于变异等位基因的存在和序列支持的质量,可以确定样本与参考基因组之间的 SNPs。
Snippy 产生的 SNP 结果可以提供有关细菌群体的遗传多样性以及不同菌株或分离物之间的进化关系的宝贵见解。通过确定不同细菌之间的具体 SNPs,研究人员可以开始了解与毒力、抗生素抗性或其他重要特征相关的遗传变化。
除了识别 SNPs 外,Snippy 还可以生成 FASTA 格式的核心基因组比对。这个比对可以用于构建系统发育树,帮助研究人员可视化不同细菌之间的进化关系。
SNP
├── all_snp.sum.tsv【SNPs结果汇总】 └── ** ├── snps.gff 【SNPs结果gff格式】 ├── snps.tab【SNPs结果tab格式】 └── snps.vcf 【SNPs结果vcf格式】
制表符分割的文本文档,使用 excel 打开。
分别统计SNPs结果信息。文件内容实例如下:
文件内容说明如下:
列数 | 列标题 | 说明 |
---|---|---|
1 | sample | 样本名 |
2 | COMPLEX_num | 复杂SNP数量 |
3 | DEL_num | 删除数量 |
4 | INS_num | 插入数量 |
5 | SNP_num | SNP数量 |
6 | Total_num | 总共数量 |
7 | referce | 参考基因组 |
制表符分割的文本文档,使用 excel 打开。
分别统计SNPs结果信息。所生成的 .gff
文件是一种用于描述基因组注释信息的格式。关文件内容实例如下:
文件内容说明如下:
列数 | 列名 | 描述 |
---|---|---|
1 | seqid | 序列标识符,表示此条目所在的基因组序列 |
2 | source | 特征来源,表示特征是如何获得的 |
3 | type | 序列特征类型,如 gene、CDS、exon、mRNA 等,在 Snippy 的结果中通常为 SNP |
4 | start | 特征在基因组序列上的起始位置 |
5 | end | 特征在基因组序列上的结束位置 |
6 | score | 特征的评分,在 snps.gff 文件中,这个值通常为 .,表示不适用或未知 |
7 | strand | 特征所在的链。可能的取值为 +(正链)或 -(负链)或. |
8 | phase | 编码阶段,在 snps.gff 文件中,这个值通常为 .或0,表示不适用或未知 |
9 | attributes | 一组键值对,用于提供特征的额外信息 |
其中,note=snp T=>A A:20 T:0
是 attributes
列的一部分。note=snp
表示该条目是一个 SNP。T=>A
表示参考序列中的碱基(T)发生了突变,变成了另一个碱基(A)。A:20
和 T:0
分别表示在这个位置上,有 20 个 A 和 0 个 T。这意味着,在这个特定的 SNP 位置,所有的测序数据都支持 A 而非 T。只是序列模拟测序时推测的。
制表符分割的文本文档,使用 excel 打开。
分别统计SNPs结果信息。所生成的 .tab
文件是一种用于描述基因组注释信息的格式。关文件内容实例如下:
文件内容说明如下:
列数 | 列名 | 描述 |
---|---|---|
1 | CHROM | 染色体 |
2 | POS | 位置 |
3 | TYPE | 突变类型 |
4 | REF | 参考位点信息 |
5 | ALT | 突变位点信息 |
6 | EVIDENCE | 证据 |
7 | FTYPE | Class of feature affected: CDS tRNA rRNA ...(通常为空白,下同) |
8 | STRAND | Strand the feature was on: + - . |
9 | NT_POS | Nucleotide position of the variant withinthe feature / Length in nt |
10 | AA_POS | Residue position / Length in aa (only if FTYPE is CDS) |
11 | LOCUS_TAG | The of the feature (if it existed)/locus_tag |
12 | GENE | The tag of the feature (if it existed)/gene |
13 | PRODUCT | The tag of the feature (if it existed)/product |
14 | EFFECT | The annotated consequence of this variant (ANN tag in .vcf)snpEff |
.vcf 文件是存储SNP(单核苷酸多态性)信息的一种标准文件格式。
其各列含义如下:
列数 | 列名 | 描述 |
---|---|---|
1 | CHROM | 染色体名称 |
2 | POS | 变异位点在参考基因组中的位置 |
3 | ID | 变异位点的ID |
4 | REF | 参考基因组中的碱基 |
5 | ALT | 发生的替代碱基 |
6 | QUAL | 变异位点的质量得分 |
7 | FILTER | 过滤信息, 通过过滤的变异位点此栏为空 |
8 | INFO | 附加信息, 包含注释、亚群频率等 |
9 | FORMAT | 样品信息栏格式 |
10 | Sample1/sample2 | 第N个样品的基因型信息 |
SNPs结果分类结果解释如下:
Type | Name | Example |
---|---|---|
snp | Single Nucleotide Polymorphism | A => T |
mnp | Multiple Nuclotide Polymorphism | GC => AT |
ins | Insertion | ATT => AGTT |
del | Deletion | ACGG => ACG |
complex | Combination of snp/mnp | ATTC => GTTA |