04.Bac_is_species/
├── all_bac_taxid_16s.txt [所有样本16s统计结果]
├── 16s_ani_sum.tsv [所有样本基因组16s与ani结果]
├── *
│   └── 16s_ANI  [ANI结果文件夹]
│       ├── aai_heatmap.svg [aai结果图]
│       ├── aai_matrix.tsv [aai矩阵表]
│       ├── aai_summary.tsv[aai汇总表]
│       ├── ANIb_percentage_identity.pdf[ani汇总图]
│       ├── ANIb_percentage_identity.png[ani汇总图]
│       ├── ANIb_percentage_identity.tab[ani汇总表]
│       ├── TETRA_correlations.pdf[TETRA汇总图]
│       ├── TETRA_correlations.png[TETRA汇总图]
│       └── TETRA_correlations.tab[TETRA汇总表] 

3.4.1 16s序列物种鉴定

使用Prokka预测的所有16s序列结果与SILVA-16S数据库进行blastn得到结果。SILVA数据库有超过10万个手动检查的序列,是细菌分类经典数据库。16S rRNA进行blastn推荐物种界限是98.6%,这里我们使用的为99%。 另外,如果有16S序列起源于超过1物种,则被视为受污染的基因组。
详细结果说明见细菌鉴定结果说明

表4-1-1 16s物种鉴定表格(all_bac_taxid_16s.txt)

sampleID 16S_id 16S_start 16S_end species_name taxid
C2 CP013663 4500127 4501682 Escherichia_coli 562
Z1 KF928778 1 1542 Proteus_mirabilis 584
C1 CP013663 4500127 4501682 Escherichia_coli 562

  1. sampleID: 样本ID
  2. 16S_id:16s序列id
  3. 16S_start: 16S序列在染色体开始位置(bp)
  4. 16S_end: 16S序列在染色体结束位置(bp)
  5. species_name: 16s序列鉴定得出的物种名
  6. taxid: NCBI物种分类号

3.4.2 ANI序列物种鉴定

ANI(average nucleotide identity)、AAI(amino acid identity)和TETRA(tetra-nucleotide signature)是计算比较基因组学常用算法,可被用于区分物种。ANI是平均核苷酸相似度,是在核苷酸水平比较两个基因组亲缘关系的指标,其在近缘物种之间有较高的区分度。类似的,AAI是氨基酸一致性,是在氨基酸水平比较两个基因组亲缘关系的指标。而TETRA是统计四核苷酸序列(tetra-nucleotide)的频率。当两个基因组序列相似时,这些四核苷酸频率的相关性越高。因此,两个基因组序列之间四核苷酸频率相关性可以粗略的用于确定两个基因组的基因组相关性。 三者物种界限推荐为:95%(ANI)、95%(AAI)和99%(TERAE).

为了进一步鉴定细菌物种,使用物种分类号(默认:16s物种分类)从NCBI上下载同分类号的基因组序列(下载最多十个)。将组装好的序列与下载的基因组进行比较ANI,AAI和TETRA,以确定组装出来的基因组物种归属。 ANI和TETRA是通过pyani[2]得到的(使用默认参数:-m ANIb 和-m TETRA),AAI是通过CompareM[1]得到的(使用默认参数:aai_wf)

表4-2-1 16s物种鉴定表格(16s_ani_sum.tsv)

sampleID 16s_median_ANI(%) 16s_median_AAI(%) 16s_median_TETRA(%) 16s_max_ANI_strians(max_ANI_score(%)) 16s_is_same_species species_name taxid
C1 97.69 98.17 99.92 GCA_008042015.2.E.coli.042(98.84) True Escherichia_coli 562
C2 97.69 98.17 99.92 GCA_008042015.2.E.coli.042(98.84) True Escherichia_coli 562
Z1 99.18 99.26 99.95 GCA_003204115.1.P.mira.AR_0029(99.34) True Proteus_mirabilis 584

  1. sampleID: 样本ID
  2. 16s_median_ANI(%): ANI 结果中位数
  3. 16s_median_AAI(%):AAI 结果中位数
  4. 16s_median_TETRA(%):TETRA结果中位数
  5. 16s_max_ANI_strians(max_ANI_score(%)):ANI结果最大的菌株名(ANI得分)
  6. 16s_is_same_species:与16s结果是否一致
  7. species_name: 16s序列鉴定得出的物种名
  8. taxid: NCBI物种分类号
  9. 注:菌株名其名称构成为Reference Sequence ID+ 物种名+菌株名;与16s结果是否一致按照max_ANI_score(%)是否大于95判断,若大于95则是True。此结果只做一个参考,不做最终结果.

分析所用软件的版本

软件 版本
CompareM 2.2.1
pyani 2.2.1

参考文献

  • [1] https://github.com/dparks1134/CompareM
  • [2] Pritchard, L. et al. “Genomics and taxonomy in diagnostics for food security: soft-rotting enterobacterial plant pathogens.” Analytical Methods 8 (2016): 12-24.