次级代谢基因簇在线分析结果文件说明

结果简介

次级代谢产物是微生物在一定的生长时期,以初级代谢产物为前体合成的对微生物的生命活动无明确功能,并非生长繁殖所必需的物质。大多是分子结构比较复杂的化合物。其中聚酮类化合物,非核糖体肽类化合物是药物合成的重要原料,如红霉素,四环素等就属 于聚酮类化合物,而多肽类抗生素如:短杆菌肽,环孢霉素等属于非核糖体肽类,这两类化合物分别由聚酮合酶(PKS),非核糖体肽合成酶(NRPS)介导完成的,目前两种酶的机制研究的较为全面。

PKS 可分为三种类型:I 型也成为模块类 PKS,是由多个结构域组成的多功能酶复合物。II 型也成为芳香类 PKS,主要合成芳香类 化合物。III 型也成查尔酮型 PKS。次级代谢基因簇使用 antiSMASH程序对基因组上的基因进行已知次级代谢基因簇的预测。

如无特殊说明,以下内容中的“*”代表目标物种的样品名。

目录结构

antismash/ ├── *.antismash.bed 【次级代谢基因簇bed格式结果】 ├── *.antismash.tsv 【次级代谢基因簇列表】 ├── *.cluster.stat.png 【次级代谢基因簇及相应基因的数量统计图,PNG格式】 ├── *.cluster.stat.tsv 【次级代谢基因簇及基因数量统计】 └── svg 【与已知基因簇比对结果展示图】 └── clusterblast*all.svg 【“*”代表基因簇数字编号】

格式说明

*.antismash.bed – 次级代谢基因簇bed格式结果

见常见格式。

*.antismash.tsv– 次级代谢基因簇列表

制表符分割的文本文档,使用 excel 打开。 文件内容举例如下:

image-20230413210400892

 

列数列标题说明
1contig目标物种的氨基酸序列的 ID,编号的有效字符有[a-zA-Z0-9.:^x!+_?-]
2start开始位置
3end结束位置
4region_name区域
5Type类型
6product产物
7Most similar known cluster基因簇类型
8known_cluster_type基因簇名称
9Similarity相似性
10genes_in_cluster基因列表

 

*.cluster.stat.png – 次级代谢基因簇及相应基因的数量统计图

HC9.cluster.stat

*.cluster.stat.tsv – 次级代谢基因簇及基因数量统计

制表符分割的文本文档,使用 excel 打开。

文件内容举例如下:

image-20230411101542690

文件内容说明如下:

列数列标题说明
1known_cluster_type基因簇名称
2gene_num基因簇数量
3cluster_num基因簇中含有的基因数量

 

clusterblast*all.svg – 与已知基因簇比对结果展示图

SVG 格式文件,SVG 是一种用 XML 定义的语言,用来描述二维矢量及矢量/栅格图形。有多种打开方法和软件,例如使用软件 Ink scape 打开或使用浏览器打开(需要安装插件,最常用的 SVG 插件是 Adobe 公司的 Adobe SVG Viewer,下载地址:http://www.adobe.com/svg/viewer/install/main.html)。

此图片展示了目标物种的基因簇与前 10 个已知物种的基因簇的比对情况。

注意:此结果只在antismash运行模式为full-featured才有此文件。

图片示例如下

image-20230411102149490

图中红色框区域代表的是目标物种的基因簇,蓝色框区域代表的是已知物种的基因簇。

常用格式

bed格式

BED (Browser Extensible Data)格式文件就是通过规定行的内容来展示注释信息。

BED文件每行至少包括chromchromStartchromEnd三列;另外还可以添加额外的9列,这些列的顺序是固定的。

在自定义BED文件时,前面可以有注释行,以“browser”或“track”开头,可以设置一些参数便于浏览器更好展示BED文件信息。但是,下游的一些分析工具,例如bedToBigBed,是不接受有注释的BED文件的。

 

 

目录