非编码 RNA(ncRNA)主要类型包括 sRNA、rRNA、tRNA、snRNA 及 miRNA 等。对于细菌,ncRNA 的类型主要指 tRNA、rRNA及 sRNA 三种。 通过与 rRNA 库比对找到 rRNA,或 rRNAmmer 软件预测 rRNA。rRNA 预测包括 rRNA_de、rRNA_ho 分别代表 denovo 预测和同源预测,目前我们通常只作 denovo 预测,如果需要同源预测,可提供参考序列进性分析; 通过 tRNAscan 软件预测 tRNA 区域和 tRNA 的二级结构;通过 Rfam 软件预测 sRNA。
注意:由于使用软件的差别,tRNA和rRNA的结果可能与prokka结果不一致。
如无特殊说明,以下内容中的“*”代表目标物种的样品名
ncRNA ├── *.denovo.rRNA.fa 【rRNA预测结果,fasta格式】 ├── *.ncRNA.stat.xls 【ncRNA 预测结果统计表】 ├── *.rRNA.gff 【rRNA预测结果,gff格式】 ├── *.srna.gff 【sRNA预测结果,gff格式】 ├── *.tRNA.gff3 【tRNA预测结果,gff格式】 └── *.tRNA.structure 【tRNA结构预测结果】
FASTA 文件,可用文本编辑器打开。
格式实例详细说明见【4 常用格式】中【4.1 FASTA 格式】部分。
制表符分割的文本文档,使用 excel 打开。
分别统计非编码 RNA 不同分类的拷贝数,长度等信息。文件内容实例如下:
文件内容说明如下:
列数 | 列标题 | 说明 |
---|---|---|
1 | type | 非编码 RNA 分类 |
2 | count | 该种类非编码 RNA 的拷贝数目 |
3 | total_length | 该种类非编码 RNA 的总长度,单位 bp |
4 | average_length | 该种类非编码 RNA 的平均长度,单位 bp(base pair,碱基对) |
GFF 文件,可用文本编辑器打开,或扩展名改为 xls 后用 excel 打开。
格式实例详细说明见【4 常用格式】中【4.2 GFF 格式】部分。
GFF 文件,可用文本编辑器打开,或扩展名改为 xls 后用 excel 打开。
格式实例详细说明见【4 常用格式】中【4.2 GFF 格式】部分。
GFF 文件,可用文本编辑器打开,或扩展名改为 xls 后用 excel 打开。
格式实例详细说明见【4 常用格式】中【4.2 GFF 格式】部分。
文本文件,可用文本编辑器打开。
*.tRNA.structure 是 tRNAscan-SE 软件运行之后的原始输出文件,存储预测出来的 tRNA 的二级结构。.tRNA 二级结构格式说明如下:
FASTA 格式(又称为 Pearson 格式),是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。
在这种格式中碱基对或氨基酸用 单个字母来编码,且允许在序列前添加序列名及注释。序列文件的第一行是由大于号">"或分号";"打头的任意文字说明(习惯常用">"作 为起始),用于序列标记。从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可,而氨 基酸常用大写字母。如: >scaffold1 35.9 AACTCCAAATGTTTTACATCCTTTTTTTATCCATAATATATAATCAACTGATATACAAAATGAAAAAATACTACCTACATTTTTATTAGGC TTATTTTATTAAAATAAGGTTGGTGTTGTGGAAATAGCCATTCT……
GFF 格式是 Sanger 研究所定义,是一种简单的、方便的对于 DNA、RNA 以及蛋白质序列的特征进行描述的一种数据格式,比如序 列的哪里到哪里是基因,已经成为序列注释的通用格式,比如基因组的基因预测,许多软件都支持输入或者输出 GFF 格式。目前格式定 义的最新版本是版本 3。GFF 格式举例如下:
文件格式说明见下表:
列数 | 说明 |
---|---|
1 | “seqid”序列的编号,编号的有效字符有[a-zA-Z0-9.:^x!+_?-] |
2 | “source'注释信息的来源,比如Genescan'”、Genbank”等,可以为空,为空用”,”点号代替 |
3 | type注释信息的类型,比如Gene、cDNA、mRNA等,或者是SO对应的编号 |
4 | “start''起始位置 |
5 | “end终止位置 |
6 | “score'”得分,数字,是注释信息可能性的说明,可以是序列相似性比对时的E-values值或者基因预测时的P-values值。”.”表示为空 |
7 | “strand'序列的方向,+表示正义链,-反义链,?表示未知 |
8 | “phase'”仅对注释类型为“CDS”有效,表示起始编码的位置,有效值为0、1、2.其他的为”.” |
9 | “attributes'”以多个键值对组成的注释信息描述,键与值之间用-”,不同的键值用“;”隔开,一个键可以有多个值,不同值用“,”分割。注意如果描述中包括tab键以及“=”,要用UL转义规则进行转义,如tab键用%09代替。键是区分大小写的,以大写字母开头的键是预先定义好的,在后面可能被其他注释信息所调用。 |
NOTE:若文件为空或者不存在,可能是该分析点已做,却结果为空。有任何疑问,请与相关工作人员联系,以确认。