分泌蛋白注释结果说明结果简介目录结构格式说明 Statistics.txt –统计结果 *.sigseq -所有信号肽的氨基酸序列*.secretory.faa -鉴定为分泌蛋白的氨基酸序列 *.membrane.faa -鉴定为跨膜蛋白的氨基酸序列* .region_output.gff3- 包含所有的信号肽区域信息 * .output.gff3- 仅包含含有信号肽的序列信息*.tmhmm.txt-跨膜结构预测结果常用格式 FASTA 文件

分泌蛋白注释结果说明

结果简介

分泌蛋白是指在细胞内合成后，分泌到细胞外起作用的蛋白质。分泌蛋白的 N 端有一般由 15～30 个氨基酸组成的信号肽。使用信号肽预测工具 SignalP6.0 注释蛋白序列是否含有信号肽结构，使用 TMHMM 工具注释蛋白序列是否含有跨膜结构，最终筛选出含有信号肽结构并且不含跨膜结构的蛋白为分泌蛋白。如无特殊说明，以下内容中的“*”代表目标物种的样品名。

目录结构

Secretory_Protein ├── *.membrane.faa 【仅包含含有信号肽的序列信息】 ├── *.region_output.gff3 【鉴定为跨膜蛋白的氨基酸序列】 ├── *.secretory.faa 【鉴定为分泌蛋白的氨基酸序列】 ├── *.signalp.output.gff3 【包含所有的信号肽区域信息】 ├── *.sigseq 【所有信号肽的氨基酸序列】 ├── *.tmhmm.txt 【跨膜结构预测结果】 └── Statistics.txt 【统计结果】

格式说明

Statistics.txt –统计结果

制表符分割的文本文档，使用 excel 打开。文件内容举例如下：

文件内容说明如下：

列数	列标题	说明
1	sample id	样本名
2	Signal peptide number	信号肽蛋白的总数量
3	Secretory protein numbers	分泌蛋白数量
4	Membrane protein numbers	跨膜蛋白数量

*.sigseq -所有信号肽的氨基酸序列

文件对应Statistics.txt的Signal peptide number列标准 FASTA 格式，用文本编辑器打开。 FASTA 格式详细说明见【4 常用格式】中【4.1 FASTA 文件】部分。

*.secretory.faa -鉴定为分泌蛋白的氨基酸序列

文件对应Statistics.txt的Secretory protein numbers列标准 FASTA 格式，用文本编辑器打开。 FASTA 格式详细说明见【4 常用格式】中【4.1 FASTA 文件】部分。

*.membrane.faa -鉴定为跨膜蛋白的氨基酸序列

文件对应Statistics.txt的Membrane protein numbers列标准 FASTA 格式，用文本编辑器打开。 FASTA 格式详细说明见【4 常用格式】中【4.1 FASTA 文件】部分。

* .region_output.gff3- 包含所有的信号肽区域信息

GFF3 格式，使用 excel 打开。

文件内容举例如下：

文件内容说明如下

列数	列标题	说明
1	sequence-name	目标物种的氨基酸序列的 ID，
2	source	预测的软件和版本信息
3	feature	序列特征
4	start	信号肽起始位置。
5	end	信号肽终止位置
6	-	.
7	-	.
8	-	.
9	-	.

其中第三列feature 结果含义可能为

n-region: The n-terminal region of the signal peptide. Reported for Sec/SPI, Sec/SPII, Tat/SPI and Tat/SPII. Labeled as N
h-region: The center hydrophobic region of the signal peptide. Reported for Sec/SPI, Sec/SPII, Tat/SPI and Tat/SPII. Labeled as H
c-region: The c-terminal region of the signal peptide, reported for Sec/SPI and Tat/SPI.
Cysteine: The conserved cysteine in +1 of the cleavage site of Lipoproteins that is used for Lipidation. Labeled as c.
Twin-arginine motif: The twin-arginine motif at the end of the n-region that is characteristic for Tat signal peptides. Labeled as R.
Sec/SPIII: These signal peptides have no known region structure.

* .output.gff3- 仅包含含有信号肽的序列信息

GFF3 格式，使用 excel 打开。

文件内容举例如下：

文件内容说明如下

列数	列标题	说明
1	sequence-name	目标物种的氨基酸序列的 ID，
2	source	预测的软件和版本信息
3	feature	特征
4	start	信号肽起始位置。
5	end	信号肽终止位置
6	likehood	可能性
7	-	.
8	-	.
9	-	.

*.tmhmm.txt-跨膜结构预测结果

制表符分割的文本文档，使用 excel 打开。文件内容举例如下：

文件内容说明如下：

列数	列标题	说明
1	seq id	序列名称
2	len	蛋白序列的长度。The length of the protein sequence.
3	ExpAA	跨膜螺旋中氨基酸的预期数量。如果此数字大于 18，则很可能是跨膜蛋白（或具有信号肽
4	First60	在蛋白的前 60 个氨基酸中跨膜螺旋中氨基酸的预期数量
5	PredHel	预测到的跨膜螺旋的数量
6	Topology	N-best 预测的拓扑结构。拓扑是由跨膜螺旋的位置给出的，如果螺旋在内部，则由 “i” 分隔，如果螺旋在外部，则由 “o” 分隔。'i7-29o44-66i87-109o' 意味着它从膜内开始，在位置 7 到 29 有一个预测的 TMH，30-43 在膜外，然后是位置 44-66 的 TMH。

常用格式

FASTA 文件

FASTA 格式（又称为 Pearson 格式），是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码，且允许在序列前添加序列名及注释。序列文件的第一行是由大于号">"或分号";"打头的任意文字说明（习惯常用">"作为起始），用于序列标记。从第二行开始为序列本身，只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可，而氨基酸常用大写字母。