插入序列结果文件说明

结果简介

插入序列(insertion sequence,IS)是编码转座所需的酶的一种转座子,它的两侧是短反向末端重复序列。转座子插入的靶序列在插入过程中被复制,在转座子两端先形成两个短正向重复序列。正向重复序列(DR,direct repeat)的长度为5-9bp,是任一转座子的特征。IS是细菌染色体和质粒的正常组成成分。标准的大肠杆菌含有任何一种常见的IS,每一种都有不到10份拷贝。当描述插入特定位置的IS如插入入噬菌体时,可以记为λ::IS。IS都能编码自身转座所需的酶。多数IS元件在宿主DNA内有多个插入位点,但也有些在不同程度上偏爱的特定热点。

如无特殊说明,以下内容中的“*”代表目标物种的样品名。

目录结构

ISfinder/ ├── *.final.assembly.csv【插入序列结果,csv 格式的结果】 ├── *.final.assembly.gff 【插入序列结果,GFF 格式的结果】 └── *.final.assembly.sum 【插入序列统计表格】

格式说明

*.final.assembly.sum -插入序列统计表格

制表符分割的文本文档,使用 excel 打开。文件内容对应于文件*.final.assembly.gff。

文件内容举例如下:

image-20230411134608012

文件内容说明如下:

列数列标题说明
1#seqid序列编号
2family类型(汇总)
3nIS插入序列数量
4bps插入序列总长度
5dnaLen基因组长度
6%dna插入序列占基因组长度比例

*.final.assembly.csv-插入序列结果,csv 格式的结果

制表符分割的文本文档,使用 excel 打开。文件内容对应于文件*.final.assembly.gff。

不同查找软件下,此文件格式稍有不同。

当运行软件为isescan时,文件内容举例如下:

image-20230411134455963

文件内容说明如下:

列数列标题说明
1seqID序列标识符
2familyIS 元素的族名
3cluster
4isBegin预测 IS 元素的基因组坐标
5isEnd预测 IS 元素的基因组坐标
6isLen预测的 IS 元素的长度
7ncopy4is预测的 IS 拷贝数,包括全长和部分 IS 拷贝
8start1IR 的基因组坐标
9end1IR 的基因组坐标
10start2IR 的基因组坐标
11end2IR 的基因组坐标
12scoreIR的分数
13irId重复的成对对齐中的相同匹配项数
14irLen反转重复的长度
15nGapsIR 中的Gaps数量
16orfBegin预测的Tpase ORF的基因组坐标
17orfEnd预测的Tpase ORF的基因组坐标
18strandTpase 所在的链
19orfLen预测的 Tpase ORF 的长度
20E-value同一 IS 元素的所有 IS 副本中最好的 E 值,越小越好
21E-value4copy报告的IS拷贝的E值,越小越好。E 值是 hmmer 在根据从基因组序列翻译的蛋白质组搜索配置文件 HMM 时返回的 E 值
22typeIS 元素复制的类型,“c”表示完整的 IS 元素,“p”表示部分 IS 元素
23ovHMER 搜索返回的 ov 编号
24tir终端倒置重复序列

 

当运行软件为digis时,文件内容举例如下:image-20230411145629477

文件内容说明如下:

列数列标题说明
1ID序列标识符
2family扩展级别,可能的值:IS,ORF,domain.
3qidIS 元素的族名
4qstart目标物种的氨基酸序列的比对起始坐标
5qend目标物种的氨基酸序列的比对终止坐标
6sid数据库序列的 ID
7sstart数据库序列的比对起始坐标
8send数据库序列的比对终止坐标
9strand数据库序列的链
10acc取自HMMER。衡量整体对齐的可靠性(从 0 到 1,1.00 表示根据模型完全可靠的对齐)
11score目标物种的氨基酸序列与数据库序列比对的比对得分
12evalue目标物种的氨基酸序列与数据库序列比对的期望值
13ORF_simORF模拟得分
14IS_simIS模拟得分
15GenBank_class基于基因库注释的分类。可能的值:is_related, no, other annotation。如果未提供GenBank注释,则此分类不可用,并且此字段为空。

*.final.assembly.gff-插入序列结果,gff格式的结果

GFF 文件,可用文本编辑器打开,或扩展名改为 xls 后用 excel 打开。 与*.final.assembly.csv相对应。

格式实例详细说明见【4 常用格式】中【4.1 GFF 格式】部分。

常用格式

GFF 格式

GFF 格式是 Sanger 研究所定义,是一种简单的、方便的对于 DNA、RNA 以及蛋白质序列的特征进行描述的一种数据格式,比如序 列的哪里到哪里是基因,已经成为序列注释的通用格式,比如基因组的基因预测,许多软件都支持输入或者输出 GFF 格式。目前格式定 义的最新版本是版本 3。

GFF 格式举例如下:

image-20230407105927787

文件格式说明见下表:

列数说明
1“seqid”序列的编号,编号的有效字符有[a-zA-Z0-9.:^x!+_?-]
2“source'注释信息的来源,比如Genescan'”、Genbank”等,可以为空,为空用”,”点号代替
3type注释信息的类型,比如Gene、cDNA、mRNA等,或者是SO对应的编号
4“start''起始位置
5“end终止位置
6“score'”得分,数字,是注释信息可能性的说明,可以是序列相似性比对时的E-values值或者基因预测时的P-values值。”.”表示为空
7“strand'序列的方向,+表示正义链,-反义链,?表示未知
8“phase'”仅对注释类型为“CDS”有效,表示起始编码的位置,有效值为0、1、2.其他的为”.”
9“attributes'”以多个键值对组成的注释信息描述,键与值之间用-”,不同的键值用“;”隔开,一个键可以有多个值,不同值用“,”分割。注意如果描述中包括tab键以及“=”,要用UL转义规则进行转义,如tab键用%09代替。键是区分大小写的,以大写字母开头的键是预先定义好的,在后面可能被其他注释信息所调用。

NOTE:若文件为空或者不存在,可能是该分析点已做,却结果为空。有任何疑问,请与相关工作人员联系,以确认。

 

目录