分泌蛋白注释结果说明

结果简介

分泌蛋白是指在细胞内合成后,分泌到细胞外起作用的蛋白质。分泌蛋白的 N 端有一般由 15~30 个氨基酸组成的信号肽。使用信 号肽预测工具 SignalP6.0 注释蛋白序列是否含有信号肽结构,使用 TMHMM 工具注释蛋白序列是否含有跨膜结构,最终筛选出含有信号肽 结构并且不含跨膜结构的蛋白为分泌蛋白。 如无特殊说明,以下内容中的“*”代表目标物种的样品名。

目录结构

Secretory_Protein ├── *.membrane.faa 【仅包含含有信号肽的序列信息】 ├── *.region_output.gff3 【鉴定为跨膜蛋白的氨基酸序列】 ├── *.secretory.faa 【鉴定为分泌蛋白的氨基酸序列 】 ├── *.signalp.output.gff3 【包含所有的信号肽区域信息】 ├── *.sigseq 【所有信号肽的氨基酸序列】 ├── *.tmhmm.txt 【跨膜结构预测结果】 └── Statistics.txt 【统计结果】

 

格式说明

Statistics.txt –统计结果

制表符分割的文本文档,使用 excel 打开。 文件内容举例如下:

image-20230330200932887

文件内容说明如下:

列数列标题说明
1sample id样本名
2Signal peptide number信号肽蛋白的总数量
3Secretory protein numbers分泌蛋白数量
4Membrane protein numbers跨膜蛋白数量

*.sigseq -所有信号肽的氨基酸序列

文件对应Statistics.txt的Signal peptide number列 标准 FASTA 格式,用文本编辑器打开。 FASTA 格式详细说明见【4 常用格式】中【4.1 FASTA 文件】部分。

*.secretory.faa -鉴定为分泌蛋白的氨基酸序列

文件对应Statistics.txt的Secretory protein numbers列 标准 FASTA 格式,用文本编辑器打开。 FASTA 格式详细说明见【4 常用格式】中【4.1 FASTA 文件】部分。

*.membrane.faa -鉴定为跨膜蛋白的氨基酸序列

文件对应Statistics.txt的Membrane protein numbers列 标准 FASTA 格式,用文本编辑器打开。 FASTA 格式详细说明见【4 常用格式】中【4.1 FASTA 文件】部分。

* .region_output.gff3- 包含所有的信号肽区域信息

GFF3 格式,使用 excel 打开。

文件内容举例如下:

image-20230330213211674

文件内容说明如下

列数列标题说明
1sequence-name目标物种的氨基酸序列的 ID,
2source预测的软件和版本信息
3feature序列特征
4start信号肽起始位置。
5end信号肽终止位置
6-.
7-.
8-.
9-.

其中第三列feature 结果含义可能为

* .output.gff3- 仅包含含有信号肽的序列信息

GFF3 格式,使用 excel 打开。

文件内容举例如下:

image-20230330213008617 文件内容说明如下

列数列标题说明
1sequence-name目标物种的氨基酸序列的 ID,
2source预测的软件和版本信息
3feature特征
4start信号肽起始位置。
5end信号肽终止位置
6likehood可能性
7-.
8-.
9-.

*.tmhmm.txt-跨膜结构预测结果

制表符分割的文本文档,使用 excel 打开。 文件内容举例如下:

image-20230330210327838

文件内容说明如下:

列数列标题说明
1seq id序列名称
2len蛋白序列的长度。The length of the protein sequence.
3ExpAA跨膜螺旋中氨基酸的预期数量。如果此数字大于 18,则很可能是跨膜蛋白(或具有信号肽
4First60在蛋白的前 60 个氨基酸中跨膜螺旋中氨基酸的预期数量
5PredHel预测到的跨膜螺旋的数量
6TopologyN-best 预测的拓扑结构。拓扑是由跨膜螺旋的位置给出的,如果螺旋在内部,则由 “i” 分隔,如果螺旋在外部,则由 “o” 分隔。'i7-29o44-66i87-109o' 意味着它从膜内开始,在位置 7 到 29 有一个预测的 TMH,30-43 在膜外,然后是位置 44-66 的 TMH。

 

常用格式

FASTA 文件

FASTA 格式(又称为 Pearson 格式),是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单 个字母来编码,且允许在序列前添加序列名及注释。序列文件的第一行是由大于号">"或分号";"打头的任意文字说明(习惯常用">"作为 起始),用于序列标记。从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可,而氨基酸常用大写字母。

目录