CAZy注释结果说明结果简介 目录结构 格式说明 *.CAZy.class.stat.txt–CAZy 数据库注释的结果文件 *.cazy.filter.m8 –CAZy 数据库进行 BLAST 比对结果 m8 格式,*.CAZy.sumInfo.txt–CAZy 数据库六大分类统计结果cazy_summed_up_summary.pdf -CAZy 数据库六大分类统计图cazy_summed_up_summary.png -CAZy 数据库六大分类统计图常用格式m8 文件
CAZy 全称为 Carbohydrate-Active enZYmes Database,碳水化合物酶相关的专业数据库,内容包括能催化碳水化合物降解、修饰、 以及生物合成的相关酶系家族。其包含五个主要分类:糖苷水解酶(Glycoside Hydrolases, GHs)、糖基转移酶(GlycosylTransferases, GTs)、 多糖裂解酶(Polysaccharide Lyases, PLs)、糖酯酶(Carbohydrate Esterases, CEs)和氧化还原酶(Auxiliary Activities, AAs)。此外,还包 含与碳水化合物结合结构域(Carbohydrate-Binding Modules, CBMs)。
五大分类和一个结构域下,都分别建立了多个 Family。 使用 Diamond 软件,把目标物种的氨基酸序列,与 CAZy 数据库进行比对,把目标物种的基因和其相对应的功能注释信息结合起来, 得到注释结果。由于每一条序列比对结果可能超过一条,为保证其生物意义,注释时保留一条最优比对结果作为该基因的注释。
如无特殊说明,以下内容中的“*”代表目标物种的样品名。
CAZy ├── *.CAZy.class.stat.txt 【CAZy 数据库注释的结果文件】 ├── *.CAZy.m8.txt 【CAZy 数据库进行 BLAST 比对结果 m8 格式】 ├── *.CAZy.sumInfo.txt 【CAZy 数据库六大分类统计结果】 ├── cazy_summed_up_summary.pdf 【CAZy 数据库六大分类统计图,PDF 格式】 └──cazy_summed_up_summary.png 【CAZy 数据库六大分类统计图,PNG 格式】
用制表符分割的文本文档,用 excel 打开。
文件列出了目标物种的氨基酸序列注释上的所有 CAZy 数据库的 Family 编号,统计了注释上这些 Family 的基因个数和基因的 ID
文件内容实例如下:
文件内容说明如下:
列数 | 列标题 | 说明 |
---|---|---|
1 | CAZy_family | CAZy 数据库的 Family 编号 |
2 | Match_number | 注释上对应 Family 的基因个数 |
3 | Known_Activities | Family 的已知活性描述 |
4 | Match_gene | Family 分类说明 |
使用 excel 打开。
m8 格式详细说明见【4 常用格式】中【4.1 m8 文件】部分。
制表符分割的文本文档,使用 excel 打开。
文件内容举例如下:
文件内容说明如下:
行数 | 说明 |
---|---|
1 | CAZy数据库分类 |
2 | 数目 |
图片展示内容与cazy_summed_up_summary.png 一致。
PNG 格式,用图片浏览器打开。
图片示例如下:
格式为列表格式的 BLAST/ Diamond 比对结果。
m8 格式举例如下:
文件内容说明如下:
列数 | 说明 |
---|---|
1 | 目标物种的氨基酸序列的 ID,编号的有效字符有[a-zA-Z0-9.:^x!+_?-] |
2 | 数据库序列的 ID |
3 | 目标物种的氨基酸序列与数据库序列比对的 Identity 值 |
4 | 目标物种的氨基酸序列与数据库序列比对的长度 |
5 | 目标物种的氨基酸序列与数据库序列比对区域的比对错配数 |
6 | 目标物种的氨基酸序列与数据库序列比对区域的比对空位数。 |
7 | 目标物种的氨基酸序列的比对起始坐标 |
8 | 目标物种的氨基酸序列的比对终止坐标 |
9 | 数据库序列的比对起始坐标 |
10 | 数据库序列的比对终止坐标 |
11 | 目标物种的氨基酸序列与数据库序列比对的期望值 |
12 | 目标物种的氨基酸序列与数据库序列比对的比对得分 |