04.Bac_is_species/ ├── all_bac_taxid_16s.txt [所有样本16s统计结果] ├── 16s_ani_sum.tsv [所有样本基因组16s与ani结果] ├── * │ └── 16s_ANI [ANI结果文件夹] │ ├── aai_heatmap.svg [aai结果图] │ ├── aai_matrix.tsv [aai矩阵表] │ ├── aai_summary.tsv[aai汇总表] │ ├── ANIb_percentage_identity.pdf[ani汇总图] │ ├── ANIb_percentage_identity.png[ani汇总图] │ ├── ANIb_percentage_identity.tab[ani汇总表] │ ├── TETRA_correlations.pdf[TETRA汇总图] │ ├── TETRA_correlations.png[TETRA汇总图] │ └── TETRA_correlations.tab[TETRA汇总表]
使用Prokka预测的所有16s序列结果与SILVA-16S数据库进行blastn得到结果。SILVA数据库有超过10万个手动检查的序列,是细菌分类经典数据库。16S rRNA进行blastn推荐物种界限是98.6%,这里我们使用的为99%。
另外,如果有16S序列起源于超过1物种,则被视为受污染的基因组。
详细结果说明见细菌鉴定结果说明。
sampleID | 16S_id | 16S_start | 16S_end | species_name | taxid |
---|---|---|---|---|---|
C2 | CP013663 | 4500127 | 4501682 | Escherichia_coli | 562 |
Z1 | KF928778 | 1 | 1542 | Proteus_mirabilis | 584 |
C1 | CP013663 | 4500127 | 4501682 | Escherichia_coli | 562 |
ANI(average nucleotide identity)、AAI(amino acid identity)和TETRA(tetra-nucleotide signature)是计算比较基因组学常用算法,可被用于区分物种。ANI是平均核苷酸相似度,是在核苷酸水平比较两个基因组亲缘关系的指标,其在近缘物种之间有较高的区分度。类似的,AAI是氨基酸一致性,是在氨基酸水平比较两个基因组亲缘关系的指标。而TETRA是统计四核苷酸序列(tetra-nucleotide)的频率。当两个基因组序列相似时,这些四核苷酸频率的相关性越高。因此,两个基因组序列之间四核苷酸频率相关性可以粗略的用于确定两个基因组的基因组相关性。 三者物种界限推荐为:95%(ANI)、95%(AAI)和99%(TERAE).
为了进一步鉴定细菌物种,使用物种分类号(默认:16s物种分类)从NCBI上下载同分类号的基因组序列(下载最多十个)。将组装好的序列与下载的基因组进行比较ANI,AAI和TETRA,以确定组装出来的基因组物种归属。 ANI和TETRA是通过pyani[2]得到的(使用默认参数:-m ANIb 和-m TETRA),AAI是通过CompareM[1]得到的(使用默认参数:aai_wf)
sampleID | 16s_median_ANI(%) | 16s_median_AAI(%) | 16s_median_TETRA(%) | 16s_max_ANI_strians(max_ANI_score(%)) | 16s_is_same_species | species_name | taxid |
---|---|---|---|---|---|---|---|
C1 | 97.69 | 98.17 | 99.92 | GCA_008042015.2.E.coli.042(98.84) | True | Escherichia_coli | 562 |
C2 | 97.69 | 98.17 | 99.92 | GCA_008042015.2.E.coli.042(98.84) | True | Escherichia_coli | 562 |
Z1 | 99.18 | 99.26 | 99.95 | GCA_003204115.1.P.mira.AR_0029(99.34) | True | Proteus_mirabilis | 584 |
软件 | 版本 |
---|---|
CompareM | 2.2.1 |
pyani | 2.2.1 |