重复序列注释结果说明

结果简介

根据重复的序列在基因组上的分布,分为两大类:散在重复序列、串联重复序列。散在重复序列是与串联重复序列的组织形式不同 的另一类重复序列,是散在方式分布于基因组内的散在重复序列。串联重复序列(Tandem Repeat,TR),即相邻的、重复两次或多次特 定核酸序列模式的重复序列。 通过 RepeatMasker 软件进行散在重复序列预测,TRF 搜寻 DNA 序列中的串联重复序列。

串联重复序列(Tandem Repeat,TR),即相邻的、重复两次或多次特定核酸序列模式的重复序列,分为微卫星(MicroSatellites),1-6个碱基为一个重复单元的简单重复序列(simple sequence repeats),以及10-60个碱基的长序列为一个重复单元的小卫星重复序列(MiniSatellites)。串联重复单元具有种属组成特异性,可作为物种的遗传性状,做进化关系的研究。 散在重复序列主要是转座子序列(transposable elements, TEs)。按长度分为短分散重复序列(Short Interspersed Nuclear Elements,SINEs)以及长散在重复序列(Long Interspersed Nuclear Elements,LINEs),其中长散在重复序列常具有转座活性。

如无特殊说明,以下内容中的“*”代表目标物种的样品名。

目录结构

Repeat ├── *.final.assembly.fasta.out 【散在重复序列预测】 ├── *.final.assembly.fasta.out.gff【散在重复序列预测文件】 ├── *.final.assembly.fasta.tbl 【重复序列结果文件】 ├── *.Microsatellite.DNA.dat.gff【Microsatellite DNA 预测结果列表】 ├── *.Minisatellite.DNA.dat.gff【Microsatellite DNA 预测结果列表】 ├── *.repeatmask.xls 【重复序列统计表 】 ├── *.trf.dat.gff【串联重复序列预测结果列表】 └── *.trf.stat【串联重复序列统计表】

格式说明

*.final.assembly.fasta.out -散在重复序列预测

文本文件,可用写字板打开。与 *.final.assembly.fasta.out.gff相对应。

该文件包含了重复序列的详细信息,如每个序列的起始位置、终止位置、反向互补序列、重复序列的名称、家族和分类等信息。这个文件可以用于进一步的分析和注释。

*.final.assembly.fasta.tbl -重复序列结果文件

文本文件,可用写字板打开。与 *.final.assembly.fasta.xls 相对应。

将*.out中的内容,整理为标准gff文件的结构类型(-gff参数生成)。主要包含重复序列的位置、结构等信息。

*.Microsatellite.DNA.dat.gff-Microsatellite DNA 预测结果列表

GFF 文件,可用文本编辑器打开,或扩展名改为 xls 后用 excel 打开。

格式实例详细说明见【4 常用格式】中【4.1 GFF 格式】部分

*.Minisatellite.DNA.dat.gff-Microsatellite DNA 预测结果列表

用文本编辑器打开,或扩展名改为 xls 后用 excel 打开。

格式实例详细说明见【4 常用格式】中【4.1 GFF 格式】部分

*.repeatmask.xls -重复序列统计表

制表符分割的文本文档,使用 excel 打开。 与 *.final.assembly.fasta.tbl 相对应。

文件内容举例如下:

image-20230412155140821

文件内容说明如下:

列数列标题说明
1sampleID样本名
2Type类型
3Number数量
4Total Length(bp)序列总长度
5Ingenome(%)占序列总长度百分比
6Average Length(bp)平均长度

*.trf.stat - 串联重复序列统计表

制表符分割的文本文档,使用 excel 打开。 展示串联重复序列不同分类的拷贝数,长度等信息。

文件内容实例如下

image-20230412202916393

文件内容说明如下:

列数列标题说明
1Type散在重复序列分类
2Number(#)该种类串联重复序列的拷贝数目
3Repeat Size(bp)该种类串联重复序列中重复单元的长度分布
4Total Length(bp)该种类串联重复序列的总长度

*.trf.dat.gff - 串联重复序列预测结果列表 GFF 文件,

可用文本编辑器打开,或扩展名改为 xls 后用 excel 打开。

格式实例详细说明见【4 常用格式】中【4.1 GFF 格式】部分

常用格式

GFF 格式

GFF 格式是 Sanger 研究所定义,是一种简单的、方便的对于 DNA、RNA 以及蛋白质序列的特征进行描述的一种数据格式,比如序 列的哪里到哪里是基因,已经成为序列注释的通用格式,比如基因组的基因预测,许多软件都支持输入或者输出 GFF 格式。目前格式定 义的最新版本是版本 3。

GFF 格式举例如下:

image-20230412211921723

文件格式说明见下表:

列数说明
1“seqid”序列的编号,编号的有效字符有[a-zA-Z0-9.:^x!+_?-]
2source”注释信息的来源,比如”Genescan”、”Genbank” 等,可以为空,为空用”.”点号代替
3“type”注释信息的类型,比如 Gene、cDNA、mRNA 等,或者是 SO 对应的编号
4“start”起始位置
5“end”终止位置
6“score”得分,数字,是注释信息可能性的说明,可以是序列相似性比对时的 E-values 值或者基因预测时的 P-values 值。”.”表示为空
7“strand”序列的方向, +表示正义链, -反义链 , ?表示未知
8“phase”仅对注释类型为 “CDS”有效,表示起始编码的位置,有效值为 0、1、2。
9“attributes”以多个键值对组成的注释信息描述,键与值之间用“=”,不同的键值用“;”隔开,一个键可以有多个值,不同值用“,”分割。注意如果描述中包括 tab 键以及“,=;”,要用 URL 转义规则进行转义,如 tab 键用 %09 代替。键是区分大小写的,以大写字母开头的键是预先定义好的,在后面可能被其他注释信息所调用

 

目录