插入序列结果文件说明结果简介目录结构格式说明*.final.assembly.sum -插入序列统计表格*.final.assembly.csv-插入序列结果,csv 格式的结果*.final.assembly.gff-插入序列结果,gff格式的结果常用格式 GFF 格式
插入序列(insertion sequence,IS)是编码转座所需的酶的一种转座子,它的两侧是短反向末端重复序列。转座子插入的靶序列在插入过程中被复制,在转座子两端先形成两个短正向重复序列。正向重复序列(DR,direct repeat)的长度为5-9bp,是任一转座子的特征。IS是细菌染色体和质粒的正常组成成分。标准的大肠杆菌含有任何一种常见的IS,每一种都有不到10份拷贝。当描述插入特定位置的IS如插入入噬菌体时,可以记为λ::IS。IS都能编码自身转座所需的酶。多数IS元件在宿主DNA内有多个插入位点,但也有些在不同程度上偏爱的特定热点。
如无特殊说明,以下内容中的“*”代表目标物种的样品名。
ISfinder/ ├── *.final.assembly.csv【插入序列结果,csv 格式的结果】 ├── *.final.assembly.gff 【插入序列结果,GFF 格式的结果】 └── *.final.assembly.sum 【插入序列统计表格】
制表符分割的文本文档,使用 excel 打开。文件内容对应于文件*.final.assembly.gff。
文件内容举例如下:
文件内容说明如下:
列数 | 列标题 | 说明 |
---|---|---|
1 | #seqid | 序列编号 |
2 | family | 类型(汇总) |
3 | nIS | 插入序列数量 |
4 | bps | 插入序列总长度 |
5 | dnaLen | 基因组长度 |
6 | %dna | 插入序列占基因组长度比例 |
制表符分割的文本文档,使用 excel 打开。文件内容对应于文件*.final.assembly.gff。
不同查找软件下,此文件格式稍有不同。
当运行软件为isescan时,文件内容举例如下:
文件内容说明如下:
列数 | 列标题 | 说明 |
---|---|---|
1 | seqID | 序列标识符 |
2 | family | IS 元素的族名 |
3 | cluster | 簇 |
4 | isBegin | 预测 IS 元素的基因组坐标 |
5 | isEnd | 预测 IS 元素的基因组坐标 |
6 | isLen | 预测的 IS 元素的长度 |
7 | ncopy4is | 预测的 IS 拷贝数,包括全长和部分 IS 拷贝 |
8 | start1 | IR 的基因组坐标 |
9 | end1 | IR 的基因组坐标 |
10 | start2 | IR 的基因组坐标 |
11 | end2 | IR 的基因组坐标 |
12 | score | IR的分数 |
13 | irId | 重复的成对对齐中的相同匹配项数 |
14 | irLen | 反转重复的长度 |
15 | nGaps | IR 中的Gaps数量 |
16 | orfBegin | 预测的Tpase ORF的基因组坐标 |
17 | orfEnd | 预测的Tpase ORF的基因组坐标 |
18 | strand | Tpase 所在的链 |
19 | orfLen | 预测的 Tpase ORF 的长度 |
20 | E-value | 同一 IS 元素的所有 IS 副本中最好的 E 值,越小越好 |
21 | E-value4copy | 报告的IS拷贝的E值,越小越好。E 值是 hmmer 在根据从基因组序列翻译的蛋白质组搜索配置文件 HMM 时返回的 E 值 |
22 | type | IS 元素复制的类型,“c”表示完整的 IS 元素,“p”表示部分 IS 元素 |
23 | ov | HMER 搜索返回的 ov 编号 |
24 | tir | 终端倒置重复序列 |
当运行软件为digis时,文件内容举例如下:
文件内容说明如下:
列数 | 列标题 | 说明 |
---|---|---|
1 | ID | 序列标识符 |
2 | family | 扩展级别,可能的值:IS,ORF,domain. |
3 | qid | IS 元素的族名 |
4 | qstart | 目标物种的氨基酸序列的比对起始坐标 |
5 | qend | 目标物种的氨基酸序列的比对终止坐标 |
6 | sid | 数据库序列的 ID |
7 | sstart | 数据库序列的比对起始坐标 |
8 | send | 数据库序列的比对终止坐标 |
9 | strand | 数据库序列的链 |
10 | acc | 取自HMMER。衡量整体对齐的可靠性(从 0 到 1,1.00 表示根据模型完全可靠的对齐) |
11 | score | 目标物种的氨基酸序列与数据库序列比对的比对得分 |
12 | evalue | 目标物种的氨基酸序列与数据库序列比对的期望值 |
13 | ORF_sim | ORF模拟得分 |
14 | IS_sim | IS模拟得分 |
15 | GenBank_class | 基于基因库注释的分类。可能的值:is_related, no, other annotation。如果未提供GenBank注释,则此分类不可用,并且此字段为空。 |
GFF 文件,可用文本编辑器打开,或扩展名改为 xls 后用 excel 打开。 与*.final.assembly.csv相对应。
格式实例详细说明见【4 常用格式】中【4.1 GFF 格式】部分。
GFF 格式是 Sanger 研究所定义,是一种简单的、方便的对于 DNA、RNA 以及蛋白质序列的特征进行描述的一种数据格式,比如序 列的哪里到哪里是基因,已经成为序列注释的通用格式,比如基因组的基因预测,许多软件都支持输入或者输出 GFF 格式。目前格式定 义的最新版本是版本 3。
GFF 格式举例如下:
文件格式说明见下表:
列数 | 说明 |
---|---|
1 | “seqid”序列的编号,编号的有效字符有[a-zA-Z0-9.:^x!+_?-] |
2 | “source'注释信息的来源,比如Genescan'”、Genbank”等,可以为空,为空用”,”点号代替 |
3 | type注释信息的类型,比如Gene、cDNA、mRNA等,或者是SO对应的编号 |
4 | “start''起始位置 |
5 | “end终止位置 |
6 | “score'”得分,数字,是注释信息可能性的说明,可以是序列相似性比对时的E-values值或者基因预测时的P-values值。”.”表示为空 |
7 | “strand'序列的方向,+表示正义链,-反义链,?表示未知 |
8 | “phase'”仅对注释类型为“CDS”有效,表示起始编码的位置,有效值为0、1、2.其他的为”.” |
9 | “attributes'”以多个键值对组成的注释信息描述,键与值之间用-”,不同的键值用“;”隔开,一个键可以有多个值,不同值用“,”分割。注意如果描述中包括tab键以及“=”,要用UL转义规则进行转义,如tab键用%09代替。键是区分大小写的,以大写字母开头的键是预先定义好的,在后面可能被其他注释信息所调用。 |
NOTE:若文件为空或者不存在,可能是该分析点已做,却结果为空。有任何疑问,请与相关工作人员联系,以确认。