VFDB 数据库注释结果说明

结果简介

VFDB 数据库全称为 Virulence Factors of Pathogenic Bacteria,是致病细菌、衣原体和支原体的毒力因子数据库,除收录毒力基因的 物种信息、基本特征描述外,还提供毒力基因功能和致病机制的详细描述,截止到 2018 年 7 月 26 日,该数据库收集的致病菌包括 74 个 属、毒力因子 1811 种,相关菌株 942 个,VF 相关基因(非冗余)(Set B) 31246 个。

使用 DIAMOND 软件,把目标物种的氨基酸序列,与 VFDB 数据库进行比对,把目标物种的基因和其相对应的功能注释信息结合 起来,得到注释结果。由于每一条序列比对结果可能超过一条,为保证其生物意义,注释时保留一条最优比对结果作为该基因的注释。 最后题供的结果为 M8 格式。

如无特殊说明,以下内容中的“*”代表目标物种的样品名

目录结构

VFDB/

|--* .VFDB.filter.m8.txt【VFDB 数据库进行 BLAST 比对结果】

|-- *.VFDB.anno.txt【VFDB 数据库注释的结果文件】

格式说明

*.VFDB.filter.m8.txt – VFDB 数据库进行 BLAST 比对结果

m8 格式,使用 excel 打开。

m8 格式详细说明见【4 常用格式】中【4.1 m8 文件】部分。

*.VFDB.anno.txt– vfdb 数据库注释的结果文件

制表符分割的文本文档,使用 excel 打开。 文件内容对应于文件*.VFDB.filter.m8.txt。

文件内容举例如下:

image-20230413171303826

文件内容说明如下:

列数列标题说明
1qseqid目标物种的氨基酸序列的 ID,编号的有效字符有[a-zA-Z0-9.:^x!+_?-]
2VFDB_internal_id数据库中,毒力因子相关基因的 ID
3pident目标物种的氨基酸序列与数据库序列比对的 Identity 值
4evalue目标物种的氨基酸序列与数据库序列比对的 E-value 值
5bitscore目标物种的氨基酸序列与数据库序列比对的比对得分
6VFID毒力因子 ID
7VFCID是指与病原菌毒力因子相关的基因簇(gene cluster)的唯一标识符
8gene毒力因子相关基因的名字 – 基因的产物
9protein_name蛋白名字
10Organism毒力因子所属的病原菌名称
11VF_Name毒力因子名字
12VF_FullName与病原菌相关的毒力因子的全名
13Bacteria与病原菌毒力因子相关的细菌物种
14VFcategory是指病原菌毒力因子的分类
15Characteristics基因的特征描述
16Structure基因的结构特点
17Function基因的功能描述
18Mechanism基因的致病机制
19Reference来源

常用格式

m8 文件

格式为列表格式的 BLAST/ Diamond 比对结果。

m8 格式举例如下:

image-20230406094645991

文件内容说明如下:

列数说明
1目标物种的氨基酸序列的 ID,编号的有效字符有[a-zA-Z0-9.:^x!+_?-]
2数据库序列的 ID
3目标物种的氨基酸序列与数据库序列比对的 Identity 值
4目标物种的氨基酸序列与数据库序列比对的长度
5目标物种的氨基酸序列与数据库序列比对区域的比对错配数
6目标物种的氨基酸序列与数据库序列比对区域的比对空位数。
7目标物种的氨基酸序列的比对起始坐标
8目标物种的氨基酸序列的比对终止坐标
9数据库序列的比对起始坐标
10数据库序列的比对终止坐标
11目标物种的氨基酸序列与数据库序列比对的期望值
12目标物种的氨基酸序列与数据库序列比对的比对得分

 

目录