重复序列注释结果说明结果简介 目录结构格式说明 *.final.assembly.fasta.out -散在重复序列预测*.final.assembly.fasta.tbl -重复序列结果文件*.Microsatellite.DNA.dat.gff-Microsatellite DNA 预测结果列表*.Minisatellite.DNA.dat.gff-Microsatellite DNA 预测结果列表*.repeatmask.xls -重复序列统计表 *.trf.stat - 串联重复序列统计表*.trf.dat.gff - 串联重复序列预测结果列表 GFF 文件,常用格式 GFF 格式
根据重复的序列在基因组上的分布,分为两大类:散在重复序列、串联重复序列。散在重复序列是与串联重复序列的组织形式不同 的另一类重复序列,是散在方式分布于基因组内的散在重复序列。串联重复序列(Tandem Repeat,TR),即相邻的、重复两次或多次特 定核酸序列模式的重复序列。 通过 RepeatMasker 软件进行散在重复序列预测,TRF 搜寻 DNA 序列中的串联重复序列。
串联重复序列(Tandem Repeat,TR),即相邻的、重复两次或多次特定核酸序列模式的重复序列,分为微卫星(MicroSatellites),1-6个碱基为一个重复单元的简单重复序列(simple sequence repeats),以及10-60个碱基的长序列为一个重复单元的小卫星重复序列(MiniSatellites)。串联重复单元具有种属组成特异性,可作为物种的遗传性状,做进化关系的研究。 散在重复序列主要是转座子序列(transposable elements, TEs)。按长度分为短分散重复序列(Short Interspersed Nuclear Elements,SINEs)以及长散在重复序列(Long Interspersed Nuclear Elements,LINEs),其中长散在重复序列常具有转座活性。
如无特殊说明,以下内容中的“*”代表目标物种的样品名。
Repeat ├── *.final.assembly.fasta.out 【散在重复序列预测】 ├── *.final.assembly.fasta.out.gff【散在重复序列预测文件】 ├── *.final.assembly.fasta.tbl 【重复序列结果文件】 ├── *.Microsatellite.DNA.dat.gff【Microsatellite DNA 预测结果列表】 ├── *.Minisatellite.DNA.dat.gff【Microsatellite DNA 预测结果列表】 ├── *.repeatmask.xls 【重复序列统计表 】 ├── *.trf.dat.gff【串联重复序列预测结果列表】 └── *.trf.stat【串联重复序列统计表】
文本文件,可用写字板打开。与 *.final.assembly.fasta.out.gff相对应。
该文件包含了重复序列的详细信息,如每个序列的起始位置、终止位置、反向互补序列、重复序列的名称、家族和分类等信息。这个文件可以用于进一步的分析和注释。
文本文件,可用写字板打开。与 *.final.assembly.fasta.xls 相对应。
将*.out中的内容,整理为标准gff文件的结构类型(-gff参数生成)。主要包含重复序列的位置、结构等信息。
GFF 文件,可用文本编辑器打开,或扩展名改为 xls 后用 excel 打开。
格式实例详细说明见【4 常用格式】中【4.1 GFF 格式】部分
用文本编辑器打开,或扩展名改为 xls 后用 excel 打开。
格式实例详细说明见【4 常用格式】中【4.1 GFF 格式】部分
制表符分割的文本文档,使用 excel 打开。 与 *.final.assembly.fasta.tbl 相对应。
文件内容举例如下:
文件内容说明如下:
列数 | 列标题 | 说明 |
---|---|---|
1 | sampleID | 样本名 |
2 | Type | 类型 |
3 | Number | 数量 |
4 | Total Length(bp) | 序列总长度 |
5 | Ingenome(%) | 占序列总长度百分比 |
6 | Average Length(bp) | 平均长度 |
制表符分割的文本文档,使用 excel 打开。 展示串联重复序列不同分类的拷贝数,长度等信息。
文件内容实例如下
文件内容说明如下:
列数 | 列标题 | 说明 |
---|---|---|
1 | Type | 散在重复序列分类 |
2 | Number(#) | 该种类串联重复序列的拷贝数目 |
3 | Repeat Size(bp) | 该种类串联重复序列中重复单元的长度分布 |
4 | Total Length(bp) | 该种类串联重复序列的总长度 |
可用文本编辑器打开,或扩展名改为 xls 后用 excel 打开。
格式实例详细说明见【4 常用格式】中【4.1 GFF 格式】部分
GFF 格式是 Sanger 研究所定义,是一种简单的、方便的对于 DNA、RNA 以及蛋白质序列的特征进行描述的一种数据格式,比如序 列的哪里到哪里是基因,已经成为序列注释的通用格式,比如基因组的基因预测,许多软件都支持输入或者输出 GFF 格式。目前格式定 义的最新版本是版本 3。
GFF 格式举例如下:
文件格式说明见下表:
列数 | 说明 |
---|---|
1 | “seqid”序列的编号,编号的有效字符有[a-zA-Z0-9.:^x!+_?-] |
2 | source”注释信息的来源,比如”Genescan”、”Genbank” 等,可以为空,为空用”.”点号代替 |
3 | “type”注释信息的类型,比如 Gene、cDNA、mRNA 等,或者是 SO 对应的编号 |
4 | “start”起始位置 |
5 | “end”终止位置 |
6 | “score”得分,数字,是注释信息可能性的说明,可以是序列相似性比对时的 E-values 值或者基因预测时的 P-values 值。”.”表示为空 |
7 | “strand”序列的方向, +表示正义链, -反义链 , ?表示未知 |
8 | “phase”仅对注释类型为 “CDS”有效,表示起始编码的位置,有效值为 0、1、2。 |
9 | “attributes”以多个键值对组成的注释信息描述,键与值之间用“=”,不同的键值用“;”隔开,一个键可以有多个值,不同值用“,”分割。注意如果描述中包括 tab 键以及“,=;”,要用 URL 转义规则进行转义,如 tab 键用 %09 代替。键是区分大小写的,以大写字母开头的键是预先定义好的,在后面可能被其他注释信息所调用 |