pfam 数据库注释结果说明 结果简介 目录结构 格式说明*.pfam.gene.tsv -Pfam 注释结果按分类汇总*.pfam.merge.tsv-Pfam 注释结果按基因汇总*.pfam.tsv-pfam结果文件
Swiss-Prot,是 2002 年由 UniProt consortium 建立的基因数据库,其特点在注释结果经过实验验证,可靠性较高,可用作其他数据的 参考。
使用 Diamond 软件,把目标物种的氨基酸序列,与 Swiss-Prot 数据库进行比对,把目标物种的基因和其相对应的功能注释信息结合 起来,得到注释结果。由于每一条序列比对结果可能超过一条,为保证其生物意义,注释时保留一条最优比对结果作为该基因的注释。 最后提供的Diamond 结果为 M8 格式,同时还提供部分数据库的注释结果汇总。
如无特殊说明,以下内容中的“*”代表目标物种的样品名。
PFAM/ ├── *.pfam.gene.tsv 【Pfam 注释结果按分类汇总】 ├── *.pfam.merge.tsv【Pfam 注释结果按基因汇总】 └──*.pfam.tsv 【pfam结果文件】
制表符分割的文本文档,使用 excel 打开。
文件内容举例如下:
文件内容说明如下:
列数 | 列标题 | 说明 |
---|---|---|
1 | pfam_accession | Pfam 数据库注释, Pfam 编号 |
2 | number | 相应功能上的基因数量 |
3 | clan | Pfam superfamily 分类 |
4 | set | 指一组具有相似结构和功能特征的蛋白质序列集合 |
5 | short_name | 蛋白质家族(protein family)的简称 |
6 | clan_description | Pfam superfamily 分类说明 |
7 | gene | 相应功能上的基因名 |
制表符分割的文本文档,使用 excel 打开。
文件内容举例如下: 文件内容说明如下:
列数 | 列标题 | 说明 |
---|---|---|
1 | gene | 基因名 |
2 | Pfam_number | Pfam 数量 |
3 | pfam_accession | Pfam 数据库注释, Pfam 编号 |
4 | pfam_name | Pfam 名字 |
5 | clan | Pfam superfamily 分类 |
6 | short_name | 蛋白质家族(protein family)的简称 |
7 | set | 指一组具有相似结构和功能特征的蛋白质序列集合 |
8 | type | pfam结构域类型 |
9 | clan_description | Pfam superfamily 分类说明 |
10 | predicted_active_site_residues | 比对的序列是否位于酶的活性部位预测的活性位点。 |
制表符分割的文本文档,使用 excel 打开。
文件内容举例如下:
文件内容说明如下:
列数 | 列标题 | 说明 |
---|---|---|
1 | seq_id | pfam结构域类型 |
2 | alignment_start | pfam结构域类型 |
3 | alignment_end | pfam结构域类型 |
4 | envelope_start | 比对到的蛋白序列(the region on the sequence over which the match lies)开始位置 |
5 | envelope_end | 比对到的蛋白序列(the region on the sequence over which the match lies)结束位置 |
6 | hmm_acc | 比对到pfam结构域的ID |
7 | hmm_name | pfam结构域名称 |
8 | type | pfam结构域类型 |
9 | hmm_start | 比对到结构域的起始位置 |
10 | hmm_end | pfam结构域的结束位置 |
11 | hmm_length | pfam结构域的长度 |
12 | bit_score | 比对打分分值 |
13 | E-value | 比对的E值,pfam结构域筛选的条件是: Evalue < 0.001 |
14 | Significance | 比对序列的显著性 |
15 | Clan | Pfam superfamily 分类 |
16 | predicted_active_site_residues | 比对的序列是否位于酶的活性部位预测的活性位点。 |