VFDB 数据库注释结果说明 结果简介 目录结构 格式说明*.VFDB.filter.m8.txt – VFDB 数据库进行 BLAST 比对结果 *.VFDB.anno.txt– vfdb 数据库注释的结果文件 常用格式m8 文件
VFDB 数据库全称为 Virulence Factors of Pathogenic Bacteria,是致病细菌、衣原体和支原体的毒力因子数据库,除收录毒力基因的 物种信息、基本特征描述外,还提供毒力基因功能和致病机制的详细描述,截止到 2018 年 7 月 26 日,该数据库收集的致病菌包括 74 个 属、毒力因子 1811 种,相关菌株 942 个,VF 相关基因(非冗余)(Set B) 31246 个。
使用 DIAMOND 软件,把目标物种的氨基酸序列,与 VFDB 数据库进行比对,把目标物种的基因和其相对应的功能注释信息结合 起来,得到注释结果。由于每一条序列比对结果可能超过一条,为保证其生物意义,注释时保留一条最优比对结果作为该基因的注释。 最后题供的结果为 M8 格式。
如无特殊说明,以下内容中的“*”代表目标物种的样品名
VFDB/
|--* .VFDB.filter.m8.txt【VFDB 数据库进行 BLAST 比对结果】
|-- *.VFDB.anno.txt【VFDB 数据库注释的结果文件】
m8 格式,使用 excel 打开。
m8 格式详细说明见【4 常用格式】中【4.1 m8 文件】部分。
制表符分割的文本文档,使用 excel 打开。 文件内容对应于文件*.VFDB.filter.m8.txt。
文件内容举例如下:
文件内容说明如下:
列数 | 列标题 | 说明 |
---|---|---|
1 | qseqid | 目标物种的氨基酸序列的 ID,编号的有效字符有[a-zA-Z0-9.:^x!+_?-] |
2 | VFDB_internal_id | 数据库中,毒力因子相关基因的 ID |
3 | pident | 目标物种的氨基酸序列与数据库序列比对的 Identity 值 |
4 | evalue | 目标物种的氨基酸序列与数据库序列比对的 E-value 值 |
5 | bitscore | 目标物种的氨基酸序列与数据库序列比对的比对得分 |
6 | VFID | 毒力因子 ID |
7 | VFCID | 是指与病原菌毒力因子相关的基因簇(gene cluster)的唯一标识符 |
8 | gene | 毒力因子相关基因的名字 – 基因的产物 |
9 | protein_name | 蛋白名字 |
10 | Organism | 毒力因子所属的病原菌名称 |
11 | VF_Name | 毒力因子名字 |
12 | VF_FullName | 与病原菌相关的毒力因子的全名 |
13 | Bacteria | 与病原菌毒力因子相关的细菌物种 |
14 | VFcategory | 是指病原菌毒力因子的分类 |
15 | Characteristics | 基因的特征描述 |
16 | Structure | 基因的结构特点 |
17 | Function | 基因的功能描述 |
18 | Mechanism | 基因的致病机制 |
19 | Reference | 来源 |
格式为列表格式的 BLAST/ Diamond 比对结果。
m8 格式举例如下:
文件内容说明如下:
列数 | 说明 |
---|---|
1 | 目标物种的氨基酸序列的 ID,编号的有效字符有[a-zA-Z0-9.:^x!+_?-] |
2 | 数据库序列的 ID |
3 | 目标物种的氨基酸序列与数据库序列比对的 Identity 值 |
4 | 目标物种的氨基酸序列与数据库序列比对的长度 |
5 | 目标物种的氨基酸序列与数据库序列比对区域的比对错配数 |
6 | 目标物种的氨基酸序列与数据库序列比对区域的比对空位数。 |
7 | 目标物种的氨基酸序列的比对起始坐标 |
8 | 目标物种的氨基酸序列的比对终止坐标 |
9 | 数据库序列的比对起始坐标 |
10 | 数据库序列的比对终止坐标 |
11 | 目标物种的氨基酸序列与数据库序列比对的期望值 |
12 | 目标物种的氨基酸序列与数据库序列比对的比对得分 |