微科盟细菌基因组完成图结题报告

03.Gene_predict/
├──all_sample.prokka.stat.txt [所有样本prokka注释结果]
├──all_ncRNA.stat.xls  [ncRNA结果统计表]
├── bacant
│   └── *.bacant
│       ├── *.AMR.possible.tsv【耐药基因可能结果】
│       ├── *.AMR.tsv【耐药基因最优结果】
│       ├── *.integrons.detail.tsv【整合子基因结果】
│       ├──*.replicon.tsv【复制子结果】
│       ├── *.transposon.filter.tsv【转座子最优结果】
│       └── *.transposon.possible.tsv【转座子可能结果】
├── COG
│   ├── *.cog.txt [COG比对结果]
│   └── plot [COG图片]
│       ├── cog_summed_up_summary_cog_color.pdf[COG汇总图片]
│       ├── cog_summed_up_summary_cog_color.png[COG汇总图片]
│       ├── cog_summed_up_summary_ggplot2_color.pdf[COG汇总图片]
│       └── cog_summed_up_summary_ggplot2_color.png[COG汇总图片]
│   │   ├── *.cog.anno.tsv[COG结果文档]
│   │   ├── *.cog.catalog.tsv[COG结果文档，详细说明参见KEGG]
│   │   └── *.cog.txt[COG结果文档]
├── EC_number
│   └── *.ec_number.txt [ec_number结果]
├── ncRNA
│   ├── *.denovo.rRNA.fa [rRNA预测结果，fasta格式]
│   ├── *.ncRNA.stat.xls [ncRNA 预测结果统计表]
│   ├── *.rRNA.gff [rRNA预测结果，gff格式]
│   ├── *.srna.gff [sRNA预测结果，gff格式]
│   ├── *.tRNA.gff3[tRNA预测结果，gff格式]
│   └── *.tRNA.structure[tRNA结构预测结果]
└── prokka
    ├── *.faa[prokka预测的蛋白氨基酸序列]
    ├── *.ffn[prokka注释的核苷酸序列]
    ├── *.fna[用于提交的Contig序列（核苷酸）]
    ├── *.fsa【用于提交的Contig序列（核苷酸）]
    ├── *.gbk[genbank格式的注释文件]
    ├── *_gene_length.png[基因长度统计图]
    ├── *.gff[包含序列和注释的GFF文件]
    ├── *.pdf [注释汇总统计图]
    ├── *.png[注释汇总统计图]
    ├── *.sqn[用于提交的Sequin可编辑文件]
    ├── *_summarize.txt[注释汇总统计,用于绘图]
    ├── *.tbl[用于提交的特征表（Feature table）]
    ├── *.tsv[注释基因列表]
    └── *.txt[注释汇总统计]

3.3.1 基因预测

使用细菌基因组功能注释工具prokka,对组装生成的assembly.fasta基因组序列文件,做基因预测和功能注释,然后用R语言分别对不同的功能注释做统计。

图3-1-1 样品基因长度分布图

说明：横坐标为基因长度，纵坐标为相应基因个数

表3-1-1 基因组prokka注释功能类型统计表(all_sample.prokka.stat.txt)

ContigID	NumOf_ftype	NumOf_CDS	NumOf_repeat_region	NumOf_rRNA	NumOf_tmRNA	NumOf_tRNA	NumOf_gene	NumOf_COG	NumOf_EC_number
C1	4626	4542	1.0	3	1	79	3460	2824	1639
C2	4626	4542	1.0	3	1	79	3460	2824	1639
Z1	3736	3651	NaN	5	1	79	2456	2022	1217

ContigID：样本名
NumOf_ftype：所有功能类型数目
NumOf_CDS：编码基因数目
NumOf_repeat_region：重复区域数目
NumOf_rRNA：rRNA数目
NumOf_tmRNA：tmRNA数目
NumOf_gene:表示注释到具体的基因英文单词数目
NumOf_COG：cog数目
NumOf_EC_number：EC数目

COG,即Clusters of Orthologous Groups of proteins（直系同源蛋白簇）。COG是由NCBI创建并维护的蛋白数据库,根据细菌、藻类和真核生物完整基因组的编码蛋白系统进化关系分类构建而成。每一簇COG由直系同源蛋白序列构成,通过比对可以将某个蛋白序列归到某一个已知功能的COG中,从而可以推测该未知功能的蛋白的功能信息。我们对基因组prokka注释结果中的.tsv文件,提取COG注释信息,然后用R语言做分类统计。

图3-1-2 COG注释功能分类统计图

说明：横坐标为相应基因个数，纵坐标为COG分类
COG分类字母代表含义见COG分类结果

3.3.3 EC_number预测

EC_number是酶学委员会（Enzyme Commission）为酶所设计的一套编号分类法,每一个酶的编号都以字母“EC”开头,接着以四段号码来表示,这些号码表示对酶作出不同层级的分类。例如三肽胺基-蛋白酶的编号为EC3.4.11.4,当中的“EC3”是指水解酶（即需要用水来将其它分子分解的酶）；“EC3.4”是指与肽键作用的水解酶；“EC3.4.11”是指从多肽中分开胺基末端的水解酶；“EC3.4.11.4”则是指从三肽中分开胺基末端的水解酶。我们对基因组prokka注释结果中的.tsv文件,提取EC_number注释信息,整理成单独的表格文件.

3.3.4 非编码RNA预测

非编码RNA（ncRNA）是一类执行多种生物学功能的RNA分子，其本身并不携带翻译为蛋白质的信息，直接在RNA水平对生命活动发挥作用。对于微生物而言，研究较为普遍的包括sRNA、rRNA、tRNA。

tRNA：转运RNA（Transfer RNA），又称传送核糖核酸、转移核糖核酸，通常简称为tRNA，是一种由76-90个核苷酸所组成的RNA，其3'端可以在氨酰-tRNA合成酶催化之下，接附特定种类的氨基酸。转译的过程中，tRNA可借由自身的反密码子识别mRNA上的密码子，将该密码子对应的氨基酸转运至核糖体合成中的多肽链上。本分析中通过tRNAscan-SE软件对tRNA进行预测。

rRNA：即核糖体RNA，rRNA在相邻物种中高度保守。rRNA的预测方法有两种，一是通过与近缘参考序列的rRNA库比对找到rRNA，二是用rRNAmmer软件预测rRNA。

sRNA：小RNA，首先进行Rfam database比对注释，接着用cmsearch程序（参数默认）确定最终的sRNA。

snRNA：（small nuclearRNA，小核RNA），它是真核生物转录后加工过程中RNA剪接体（spilceosome）的主要成分。

miRNA：MicroRNA(miRNA)是在真核生物中发现的一类内源性的具有调控功能的非编码RNA，前体全长约90bp，其成熟miRNA大小长约20~25个核苷酸（nt）。miRNA广泛存在于真核生物中，是一组不编码蛋白质的短序列RNA，它本身不具有开放阅读框（ORF），对基因的表达具有调控作用。

sRNA、snRNA、miRNA的预测原理类似，首先用Rfam软件进行Rfam database比对注释，接着用其cmsearch程序（参数默认）确定最终的sRNA、snRNA、miRNA。由于细菌是原核生物，故ncRNA 的类型主要指 tRNA、rRNA及 sRNA 三种。

此次分析中的tRNA和rRNA预测的结果可能和prokka基因预测的结果不同，这是由于采用的软件不同导致的。
详细结果说明见ncRNA注释结果

各样本ncRNA结果统计表格如下：

表3-1-2 各样本ncRNA结果统计表格统计表(all_ncRNA.stat.xls)

sampleID	type	count	total_length	average_length
C1	tRNA	78	5823	74.65
C1	16s_rRNA	1	1529	1529.00
C1	23s_rRNA	1	2900	2900.00
C1	5s_rRNA	1	114	114.00
C1	sRNA	114	12173	106.78
C2	tRNA	78	5823	74.65
C2	16s_rRNA	1	1529	1529.00
C2	23s_rRNA	1	2900	2900.00
C2	5s_rRNA	1	114	114.00
C2	sRNA	114	12173	106.78
Z1	tRNA	77	5736	74.49
Z1	16s_rRNA	1	1530	1530.00
Z1	23s_rRNA	1	1723	1723.00
Z1	5s_rRNA	3	342	114.00
Z1	sRNA	19	2255	118.68

samplieID：样本名
type：所有功能类型数目
count：拷贝数目
total_length：该种类非编码 RNA 的总长度，单位 bp
average_length：该种类非编码 RNA 的平均长度，单位 bp（base pair，碱基对)

分析所用软件的版本

软件	版本
prokka	1.14.6

参考文献

[1] Seemann, Torsten. “Prokka: rapid prokaryotic genome annotation.” Bioinformatics (Oxford, England) vol. 30,14 (2014): 2068-9. doi:10.1093/bioinformatics/btu153