非编码 RNA 注释结果说明

结果简介

非编码 RNA(ncRNA)主要类型包括 sRNA、rRNA、tRNA、snRNA 及 miRNA 等。对于细菌,ncRNA 的类型主要指 tRNA、rRNA及 sRNA 三种。 通过与 rRNA 库比对找到 rRNA,或 rRNAmmer 软件预测 rRNA。rRNA 预测包括 rRNA_de、rRNA_ho 分别代表 denovo 预测和同源预测,目前我们通常只作 denovo 预测,如果需要同源预测,可提供参考序列进性分析; 通过 tRNAscan 软件预测 tRNA 区域和 tRNA 的二级结构;通过 Rfam 软件预测 sRNA。

注意:由于使用软件的差别,tRNA和rRNA的结果可能与prokka结果不一致。

如无特殊说明,以下内容中的“*”代表目标物种的样品名

目录结构

ncRNA ├── *.denovo.rRNA.fa 【rRNA预测结果,fasta格式】 ├── *.ncRNA.stat.xls 【ncRNA 预测结果统计表】 ├── *.rRNA.gff 【rRNA预测结果,gff格式】 ├── *.srna.gff 【sRNA预测结果,gff格式】 ├── *.tRNA.gff3 【tRNA预测结果,gff格式】 └── *.tRNA.structure 【tRNA结构预测结果】

格式说明

*.denovo.rRNA.fa -rRNA预测结果

FASTA 文件,可用文本编辑器打开。

格式实例详细说明见【4 常用格式】中【4.1 FASTA 格式】部分。

*.ncRNA.stat.xls - ncRNA 预测结果统计表

制表符分割的文本文档,使用 excel 打开。

分别统计非编码 RNA 不同分类的拷贝数,长度等信息。文件内容实例如下: image-20230407105043796

文件内容说明如下:

列数列标题说明
1type非编码 RNA 分类
2count该种类非编码 RNA 的拷贝数目
3total_length该种类非编码 RNA 的总长度,单位 bp
4average_length该种类非编码 RNA 的平均长度,单位 bp(base pair,碱基对)

*.rRNA.gff - rRNA预测结果

GFF 文件,可用文本编辑器打开,或扩展名改为 xls 后用 excel 打开。

格式实例详细说明见【4 常用格式】中【4.2 GFF 格式】部分。

*.sRNA.gff - sRNA预测结果

GFF 文件,可用文本编辑器打开,或扩展名改为 xls 后用 excel 打开。

格式实例详细说明见【4 常用格式】中【4.2 GFF 格式】部分。

*.tRNA.gff3- tRNA 预测结果列表

GFF 文件,可用文本编辑器打开,或扩展名改为 xls 后用 excel 打开。

格式实例详细说明见【4 常用格式】中【4.2 GFF 格式】部分。

*.tRNA.structure - tRNA 二级结构文件

文本文件,可用文本编辑器打开。

*.tRNA.structure 是 tRNAscan-SE 软件运行之后的原始输出文件,存储预测出来的 tRNA 的二级结构。.tRNA 二级结构格式说明如下:

image-20230407105731314

 

常用格式

FASTA 格式

FASTA 格式(又称为 Pearson 格式),是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。

在这种格式中碱基对或氨基酸用 单个字母来编码,且允许在序列前添加序列名及注释。序列文件的第一行是由大于号">"或分号";"打头的任意文字说明(习惯常用">"作 为起始),用于序列标记。从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可,而氨 基酸常用大写字母。如: >scaffold1 35.9 AACTCCAAATGTTTTACATCCTTTTTTTATCCATAATATATAATCAACTGATATACAAAATGAAAAAATACTACCTACATTTTTATTAGGC TTATTTTATTAAAATAAGGTTGGTGTTGTGGAAATAGCCATTCT……

GFF 格式

GFF 格式是 Sanger 研究所定义,是一种简单的、方便的对于 DNA、RNA 以及蛋白质序列的特征进行描述的一种数据格式,比如序 列的哪里到哪里是基因,已经成为序列注释的通用格式,比如基因组的基因预测,许多软件都支持输入或者输出 GFF 格式。目前格式定 义的最新版本是版本 3。GFF 格式举例如下:

image-20230407105927787

文件格式说明见下表:

列数说明
1“seqid”序列的编号,编号的有效字符有[a-zA-Z0-9.:^x!+_?-]
2“source'注释信息的来源,比如Genescan'”、Genbank”等,可以为空,为空用”,”点号代替
3type注释信息的类型,比如Gene、cDNA、mRNA等,或者是SO对应的编号
4“start''起始位置
5“end终止位置
6“score'”得分,数字,是注释信息可能性的说明,可以是序列相似性比对时的E-values值或者基因预测时的P-values值。”.”表示为空
7“strand'序列的方向,+表示正义链,-反义链,?表示未知
8“phase'”仅对注释类型为“CDS”有效,表示起始编码的位置,有效值为0、1、2.其他的为”.”
9“attributes'”以多个键值对组成的注释信息描述,键与值之间用-”,不同的键值用“;”隔开,一个键可以有多个值,不同值用“,”分割。注意如果描述中包括tab键以及“=”,要用UL转义规则进行转义,如tab键用%09代替。键是区分大小写的,以大写字母开头的键是预先定义好的,在后面可能被其他注释信息所调用。

NOTE:若文件为空或者不存在,可能是该分析点已做,却结果为空。有任何疑问,请与相关工作人员联系,以确认。

 

目录