swiss-Prot 数据库注释结果说明 结果简介 目录结构 格式说明 *.swissprot.filter.m8.txt – SwissProt 数据库进行 BLAST 比对结果 *.swissprot.anno.txt– SwissProt 数据库注释的结果文件 常用格式 m8 文件
Swiss-Prot,是 2002 年由 UniProt consortium 建立的基因数据库,其特点在注释结果经过实验验证,可靠性较高,可用作其他数据的 参考。
使用 Diamond 软件,把目标物种的氨基酸序列,与 Swiss-Prot 数据库进行比对,把目标物种的基因和其相对应的功能注释信息结合 起来,得到注释结果。由于每一条序列比对结果可能超过一条,为保证其生物意义,注释时保留一条最优比对结果作为该基因的注释。 最后提供的Diamond 结果为 M8 格式,同时还提供部分数据库的注释结果汇总。
如无特殊说明,以下内容中的“*”代表目标物种的样品名。
SwissProt/
|-- *.swissProt.filter.m8.txt【Swiss-Prot 数据库进行 BLAST 比对结果】
|-- *.swissProt.anno.txt 【Swiss-Prot 数据库注释的结果文件】
m8 格式,使用 excel 打开。 m8 格式详细说明见【4 常用格式】中【4.1 m8 文件】部分。
制表符分割的文本文档,使用 excel 打开。 文件内容对应于文件.swissprot.filter.m8。
文件内容举例如下:
文件内容说明如下:
列数 | 列标题 | 说明 |
---|---|---|
1 | qseqid | 目标物种的氨基酸序列的 ID,编号的有效字符有[a-zA-Z0-9.:^x!+_?-] |
2 | pident | 目标物种的氨基酸序列与数据库序列比对的 Identity 值 |
3 | evalue | 目标物种的氨基酸序列与数据库序列比对的 E-value 值 |
4 | bitscore | 目标物种的氨基酸序列与数据库序列比对的比对得分 |
5 | UniProt_ID | UniProt数据库序列的 ID |
6 | UniProt_acc | UniProt 的登录名 |
7 | gene_name | 基因名 |
8 | protein | 蛋白质名称 |
9 | Organism | 来源物种,通常为拉丁文分类名 |
10 | Organism_Taxonomy | 物种分类数据库Taxonomy ID |
11 | PE | Protein Existence,蛋白质可靠性,对应5个数字,数字越小越可靠 |
12 | SV | Sequence Version,序列版本号 |
第11列PE对应5个数字详细介绍如下:
格式为列表格式的 BLAST/ Diamond 比对结果。
m8 格式举例如下:
文件内容说明如下:
列数 | 说明 |
---|---|
1 | 目标物种的氨基酸序列的 ID,编号的有效字符有[a-zA-Z0-9.:^x!+_?-] |
2 | 数据库序列的 ID |
3 | 目标物种的氨基酸序列与数据库序列比对的 Identity 值 |
4 | 目标物种的氨基酸序列与数据库序列比对的长度 |
5 | 目标物种的氨基酸序列与数据库序列比对区域的比对错配数 |
6 | 目标物种的氨基酸序列与数据库序列比对区域的比对空位数。 |
7 | 目标物种的氨基酸序列的比对起始坐标 |
8 | 目标物种的氨基酸序列的比对终止坐标 |
9 | 数据库序列的比对起始坐标 |
10 | 数据库序列的比对终止坐标 |
11 | 目标物种的氨基酸序列与数据库序列比对的期望值 |
12 | 目标物种的氨基酸序列与数据库序列比对的比对得分 |