次级代谢基因簇在线分析结果文件说明结果简介 目录结构格式说明 *.antismash.bed – 次级代谢基因簇bed格式结果*.antismash.tsv– 次级代谢基因簇列表*.cluster.stat.png – 次级代谢基因簇及相应基因的数量统计图*.cluster.stat.tsv – 次级代谢基因簇及基因数量统计clusterblast*all.svg – 与已知基因簇比对结果展示图常用格式 bed格式
次级代谢产物是微生物在一定的生长时期,以初级代谢产物为前体合成的对微生物的生命活动无明确功能,并非生长繁殖所必需的物质。大多是分子结构比较复杂的化合物。其中聚酮类化合物,非核糖体肽类化合物是药物合成的重要原料,如红霉素,四环素等就属 于聚酮类化合物,而多肽类抗生素如:短杆菌肽,环孢霉素等属于非核糖体肽类,这两类化合物分别由聚酮合酶(PKS),非核糖体肽合成酶(NRPS)介导完成的,目前两种酶的机制研究的较为全面。
PKS 可分为三种类型:I 型也成为模块类 PKS,是由多个结构域组成的多功能酶复合物。II 型也成为芳香类 PKS,主要合成芳香类 化合物。III 型也成查尔酮型 PKS。次级代谢基因簇使用 antiSMASH程序对基因组上的基因进行已知次级代谢基因簇的预测。
如无特殊说明,以下内容中的“*”代表目标物种的样品名。
antismash/ ├── *.antismash.bed 【次级代谢基因簇bed格式结果】 ├── *.antismash.tsv 【次级代谢基因簇列表】 ├── *.cluster.stat.png 【次级代谢基因簇及相应基因的数量统计图,PNG格式】 ├── *.cluster.stat.tsv 【次级代谢基因簇及基因数量统计】 └── svg 【与已知基因簇比对结果展示图】 └── clusterblast*all.svg 【“*”代表基因簇数字编号】
见常见格式。
制表符分割的文本文档,使用 excel 打开。 文件内容举例如下:
列数 | 列标题 | 说明 |
---|---|---|
1 | contig | 目标物种的氨基酸序列的 ID,编号的有效字符有[a-zA-Z0-9.:^x!+_?-] |
2 | start | 开始位置 |
3 | end | 结束位置 |
4 | region_name | 区域 |
5 | Type | 类型 |
6 | product | 产物 |
7 | Most similar known cluster | 基因簇类型 |
8 | known_cluster_type | 基因簇名称 |
9 | Similarity | 相似性 |
10 | genes_in_cluster | 基因列表 |
制表符分割的文本文档,使用 excel 打开。
文件内容举例如下:
文件内容说明如下:
列数 | 列标题 | 说明 |
---|---|---|
1 | known_cluster_type | 基因簇名称 |
2 | gene_num | 基因簇数量 |
3 | cluster_num | 基因簇中含有的基因数量 |
SVG 格式文件,SVG 是一种用 XML 定义的语言,用来描述二维矢量及矢量/栅格图形。有多种打开方法和软件,例如使用软件 Ink scape 打开或使用浏览器打开(需要安装插件,最常用的 SVG 插件是 Adobe 公司的 Adobe SVG Viewer,下载地址:http://www.adobe.com/svg/viewer/install/main.html)。
此图片展示了目标物种的基因簇与前 10 个已知物种的基因簇的比对情况。
注意:此结果只在antismash运行模式为full-featured才有此文件。
图片示例如下
图中红色框区域代表的是目标物种的基因簇,蓝色框区域代表的是已知物种的基因簇。
BED (Browser Extensible Data)格式文件就是通过规定行的内容来展示注释信息。
BED文件每行至少包括chrom,chromStart,chromEnd三列;另外还可以添加额外的9列,这些列的顺序是固定的。
在自定义BED文件时,前面可以有注释行,以“browser”或“track”开头,可以设置一些参数便于浏览器更好展示BED文件信息。但是,下游的一些分析工具,例如bedToBigBed,是不接受有注释的BED文件的。