PHI 数据库注释结果结果简介目录结构格式说明 *.phi.m8.txt-phi 数据库进行 BLAST 比对结果*.phi.anno.txt-phi 数据库注释的结果文件*.phi.sumInfo.txt -PHI 数据库分类统计结果phi_summed_up_summary.png-PHI数据库分类统计图*.pdf - PHI数据库分类统计图常用格式m8 文件
PHI 数据库全称为 Pathogen-Host Interactions database,是病原与宿主相互作用的基因数据库。其内容经过实验验证,主要来源于真菌、卵菌和细菌病原,感染的宿主包括动物、植物、真菌以及昆虫。
使用 Diamond 软件,把目标物种的氨基酸序列,与 PHI 数据库进行比对,把目标物种的基因和其相对应的功能注释信息结合起来, 得到注释结果。由于每一条序列比对结果可能超过一条,为保证其生物意义,注释时保留一条最优比对结果作为该基因的注释。最后提供的 Diamond 比对结果为 M8 格式。
如无特殊说明,以下内容中的“*”代表目标物种的样品名。
PHI/ ├── *.phi.m8.txt【PHI 数据库进行 BLAST 比对结果】 ├── *.phi.anno.txt【PHI数据库注释的结果文件】 ├── *.phi.sumInfo.txt 【PHI 数据库分类统计结果】 ├── phi_summed_up_summary.pdf 【PHI数据库分类统计图】 └── phi_summed_up_summary.png 【PHI数据库分类统计图】
m8 格式,使用 excel 打开。
m8 格式详细说明见【4 常用格式】中【4.1 m8 文件】部分。
制表符分割的文本文档,使用 excel 打开。 文件内容对应于文件*.phi.m8.txt。
文件内容举例如
文件说明如下:
列数 | 列标题 | 说明 |
---|---|---|
1 | Gene_ID | 目标物种的氨基酸序列的 ID,编号的有效字符有[a-zA-Z0-9.:^x!+_?-] |
2 | Gene | 基因的名字 |
3 | PHI_MolConn_ID | 数据库中基因的 ID |
4 | Protein.ID | UniprotKB 或者 Genbank 的 ID。如果不是这两个数据库的基因,则为空。 |
5 | Pathogen.ID | 致病物种的 NCBI 分类 ID |
6 | Identity | 目标物种的氨基酸序列与数据库序列比对的 Identity 值 |
7 | length | 比对上的长度 |
8 | mismatch | 目标物种的氨基酸序列与数据库序列比对区域的比对错配数 |
9 | gapopen | 目标物种的氨基酸序列与数据库序列比对区域的比对空位数。 | |
10 | qstart | 目标物种的氨基酸序列的比对起始坐标 |
11 | qend | 目标物种的氨基酸序列的比对终止坐标 |
12 | sstart | 数据库序列的比对起始坐标 |
13 | send | 数据库序列的比对终止坐标 |
14 | E_value | 目标物种的氨基酸序列与数据库序列比对的期望值 |
15 | bitscore | 目标物种的氨基酸序列与数据库序列比对的比对得分 |
16 | Gene.ID | 致病基因ID |
17 | Pathogen.species | 致病物种的名称 |
18 | Pathogen.strain | 致病物种菌种的名称 |
19 | Disease | 疾病 |
20 | Host.description | 宿主描述 |
21 | Host.ID | 宿主物种在ncbi分类号 |
22 | Host.species | 宿主物种 |
23 | Gene.Function | 基因功能 |
24 | Mutant.Phenotype | 突变体的表型 |
25 | Exp..Technique.stable | 实验证据。 |
制表符分割的文本文档,使用 excel 打开。 文件内容对应于文件phi_summed_up_summary.png。
文件内容举例如下:
行数 | 说明 |
---|---|
1 | 按照突变体的表型进行分类汇总 |
2 | 相应功能上的基因数目 |
PNG 格式,用图片浏览器打开。
展示 TCDB 一级分类基因数目的统计情况,图片示例如下:
图片展示内容与*.png 一样
格式为列表格式的 BLAST/ Diamond 比对结果。
m8 格式举例如下:
文件内容说明如下:
列数 | 说明 |
---|---|
1 | 目标物种的氨基酸序列的 ID,编号的有效字符有[a-zA-Z0-9.:^x!+_?-] |
2 | 数据库序列的 ID |
3 | 目标物种的氨基酸序列与数据库序列比对的 Identity 值 |
4 | 目标物种的氨基酸序列与数据库序列比对的长度 |
5 | 目标物种的氨基酸序列与数据库序列比对区域的比对错配数 |
6 | 目标物种的氨基酸序列与数据库序列比对区域的比对空位数。 |
7 | 目标物种的氨基酸序列的比对起始坐标 |
8 | 目标物种的氨基酸序列的比对终止坐标 |
9 | 数据库序列的比对起始坐标 |
10 | 数据库序列的比对终止坐标 |
11 | 目标物种的氨基酸序列与数据库序列比对的期望值 |
12 | 目标物种的氨基酸序列与数据库序列比对的比对得分 |