CAZy注释结果说明

结果简介

CAZy 全称为 Carbohydrate-Active enZYmes Database,碳水化合物酶相关的专业数据库,内容包括能催化碳水化合物降解、修饰、 以及生物合成的相关酶系家族。其包含五个主要分类:糖苷水解酶(Glycoside Hydrolases, GHs)、糖基转移酶(GlycosylTransferases, GTs)、 多糖裂解酶(Polysaccharide Lyases, PLs)、糖酯酶(Carbohydrate Esterases, CEs)和氧化还原酶(Auxiliary Activities, AAs)。此外,还包 含与碳水化合物结合结构域(Carbohydrate-Binding Modules, CBMs)。

五大分类和一个结构域下,都分别建立了多个 Family。 使用 Diamond 软件,把目标物种的氨基酸序列,与 CAZy 数据库进行比对,把目标物种的基因和其相对应的功能注释信息结合起来, 得到注释结果。由于每一条序列比对结果可能超过一条,为保证其生物意义,注释时保留一条最优比对结果作为该基因的注释。

如无特殊说明,以下内容中的“*”代表目标物种的样品名。

目录结构

CAZy ├── *.CAZy.class.stat.txt 【CAZy 数据库注释的结果文件】 ├── *.CAZy.m8.txt 【CAZy 数据库进行 BLAST 比对结果 m8 格式】 ├── *.CAZy.sumInfo.txt 【CAZy 数据库六大分类统计结果】 ├── cazy_summed_up_summary.pdf 【CAZy 数据库六大分类统计图,PDF 格式】 └──cazy_summed_up_summary.png 【CAZy 数据库六大分类统计图,PNG 格式】

格式说明

*.CAZy.class.stat.txt–CAZy 数据库注释的结果文件

用制表符分割的文本文档,用 excel 打开。

文件列出了目标物种的氨基酸序列注释上的所有 CAZy 数据库的 Family 编号,统计了注释上这些 Family 的基因个数和基因的 ID

文件内容实例如下:

image-20230407111549017

文件内容说明如下:

列数列标题说明
1CAZy_familyCAZy 数据库的 Family 编号
2Match_number注释上对应 Family 的基因个数
3Known_ActivitiesFamily 的已知活性描述
4Match_geneFamily 分类说明

 

*.cazy.filter.m8 –CAZy 数据库进行 BLAST 比对结果 m8 格式,

使用 excel 打开。

m8 格式详细说明见【4 常用格式】中【4.1 m8 文件】部分。

*.CAZy.sumInfo.txt–CAZy 数据库六大分类统计结果

制表符分割的文本文档,使用 excel 打开。

文件内容举例如下:

image-20230407112436487

文件内容说明如下:

行数说明
1CAZy数据库分类
2数目

cazy_summed_up_summary.pdf -CAZy 数据库六大分类统计图

图片展示内容与cazy_summed_up_summary.png 一致。

cazy_summed_up_summary.png -CAZy 数据库六大分类统计图

PNG 格式,用图片浏览器打开。

图片示例如下:

cazy_summed_up_summary

常用格式

m8 文件

格式为列表格式的 BLAST/ Diamond 比对结果。

m8 格式举例如下:

image-20230406094645991

文件内容说明如下:

列数说明
1目标物种的氨基酸序列的 ID,编号的有效字符有[a-zA-Z0-9.:^x!+_?-]
2数据库序列的 ID
3目标物种的氨基酸序列与数据库序列比对的 Identity 值
4目标物种的氨基酸序列与数据库序列比对的长度
5目标物种的氨基酸序列与数据库序列比对区域的比对错配数
6目标物种的氨基酸序列与数据库序列比对区域的比对空位数。
7目标物种的氨基酸序列的比对起始坐标
8目标物种的氨基酸序列的比对终止坐标
9数据库序列的比对起始坐标
10数据库序列的比对终止坐标
11目标物种的氨基酸序列与数据库序列比对的期望值
12目标物种的氨基酸序列与数据库序列比对的比对得分

 

 

目录