pfam 数据库注释结果说明

结果简介

Swiss-Prot,是 2002 年由 UniProt consortium 建立的基因数据库,其特点在注释结果经过实验验证,可靠性较高,可用作其他数据的 参考。

使用 Diamond 软件,把目标物种的氨基酸序列,与 Swiss-Prot 数据库进行比对,把目标物种的基因和其相对应的功能注释信息结合 起来,得到注释结果。由于每一条序列比对结果可能超过一条,为保证其生物意义,注释时保留一条最优比对结果作为该基因的注释。 最后提供的Diamond 结果为 M8 格式,同时还提供部分数据库的注释结果汇总。

如无特殊说明,以下内容中的“*”代表目标物种的样品名。

目录结构

PFAM/ ├── *.pfam.gene.tsv 【Pfam 注释结果按分类汇总】 ├── *.pfam.merge.tsv【Pfam 注释结果按基因汇总】 └──*.pfam.tsv 【pfam结果文件】

格式说明

*.pfam.gene.tsv -Pfam 注释结果按分类汇总

制表符分割的文本文档,使用 excel 打开。

文件内容举例如下:

image-20230413153053611 文件内容说明如下:

列数列标题说明
1pfam_accessionPfam 数据库注释, Pfam 编号
2number相应功能上的基因数量
3clanPfam superfamily 分类
4set指一组具有相似结构和功能特征的蛋白质序列集合
5short_name蛋白质家族(protein family)的简称
6clan_descriptionPfam superfamily 分类说明
7gene相应功能上的基因名

 

*.pfam.merge.tsv-Pfam 注释结果按基因汇总

制表符分割的文本文档,使用 excel 打开。

文件内容举例如下: image-20230413153204163 文件内容说明如下:

列数列标题说明
1gene基因名
2Pfam_numberPfam 数量
3pfam_accessionPfam 数据库注释, Pfam 编号
4pfam_namePfam 名字
5clanPfam superfamily 分类
6short_name蛋白质家族(protein family)的简称
7set指一组具有相似结构和功能特征的蛋白质序列集合
8typepfam结构域类型
9clan_descriptionPfam superfamily 分类说明
10predicted_active_site_residues比对的序列是否位于酶的活性部位预测的活性位点。

*.pfam.tsv-pfam结果文件

制表符分割的文本文档,使用 excel 打开。

文件内容举例如下:

image-20230413155941137

文件内容说明如下:

列数列标题说明
1seq_idpfam结构域类型
2alignment_startpfam结构域类型
3alignment_endpfam结构域类型
4envelope_start比对到的蛋白序列(the region on the sequence over which the match lies)开始位置
5envelope_end比对到的蛋白序列(the region on the sequence over which the match lies)结束位置
6hmm_acc比对到pfam结构域的ID
7hmm_namepfam结构域名称
8typepfam结构域类型
9hmm_start比对到结构域的起始位置
10hmm_endpfam结构域的结束位置
11hmm_lengthpfam结构域的长度
12bit_score比对打分分值
13E-value比对的E值,pfam结构域筛选的条件是: Evalue < 0.001
14Significance比对序列的显著性
15ClanPfam superfamily 分类
16predicted_active_site_residues比对的序列是否位于酶的活性部位预测的活性位点。

 

 

目录