分泌蛋白注释结果说明结果简介 目录结构 格式说明 Statistics.txt –统计结果 *.sigseq -所有信号肽的氨基酸序列*.secretory.faa -鉴定为分泌蛋白的氨基酸序列 *.membrane.faa -鉴定为跨膜蛋白的氨基酸序列* .region_output.gff3- 包含所有的信号肽区域信息 * .output.gff3- 仅包含含有信号肽的序列信息*.tmhmm.txt-跨膜结构预测结果常用格式 FASTA 文件
分泌蛋白是指在细胞内合成后,分泌到细胞外起作用的蛋白质。分泌蛋白的 N 端有一般由 15~30 个氨基酸组成的信号肽。使用信 号肽预测工具 SignalP6.0 注释蛋白序列是否含有信号肽结构,使用 TMHMM 工具注释蛋白序列是否含有跨膜结构,最终筛选出含有信号肽 结构并且不含跨膜结构的蛋白为分泌蛋白。 如无特殊说明,以下内容中的“*”代表目标物种的样品名。
Secretory_Protein ├── *.membrane.faa 【仅包含含有信号肽的序列信息】 ├── *.region_output.gff3 【鉴定为跨膜蛋白的氨基酸序列】 ├── *.secretory.faa 【鉴定为分泌蛋白的氨基酸序列 】 ├── *.signalp.output.gff3 【包含所有的信号肽区域信息】 ├── *.sigseq 【所有信号肽的氨基酸序列】 ├── *.tmhmm.txt 【跨膜结构预测结果】 └── Statistics.txt 【统计结果】
制表符分割的文本文档,使用 excel 打开。 文件内容举例如下:
文件内容说明如下:
列数 | 列标题 | 说明 |
---|---|---|
1 | sample id | 样本名 |
2 | Signal peptide number | 信号肽蛋白的总数量 |
3 | Secretory protein numbers | 分泌蛋白数量 |
4 | Membrane protein numbers | 跨膜蛋白数量 |
文件对应Statistics.txt的Signal peptide number列 标准 FASTA 格式,用文本编辑器打开。 FASTA 格式详细说明见【4 常用格式】中【4.1 FASTA 文件】部分。
文件对应Statistics.txt的Secretory protein numbers列 标准 FASTA 格式,用文本编辑器打开。 FASTA 格式详细说明见【4 常用格式】中【4.1 FASTA 文件】部分。
文件对应Statistics.txt的Membrane protein numbers列 标准 FASTA 格式,用文本编辑器打开。 FASTA 格式详细说明见【4 常用格式】中【4.1 FASTA 文件】部分。
GFF3 格式,使用 excel 打开。
文件内容举例如下:
文件内容说明如下
列数 | 列标题 | 说明 |
---|---|---|
1 | sequence-name | 目标物种的氨基酸序列的 ID, |
2 | source | 预测的软件和版本信息 |
3 | feature | 序列特征 |
4 | start | 信号肽起始位置。 |
5 | end | 信号肽终止位置 |
6 | - | . |
7 | - | . |
8 | - | . |
9 | - | . |
其中第三列feature 结果含义可能为
GFF3 格式,使用 excel 打开。
文件内容举例如下:
文件内容说明如下
列数 | 列标题 | 说明 |
---|---|---|
1 | sequence-name | 目标物种的氨基酸序列的 ID, |
2 | source | 预测的软件和版本信息 |
3 | feature | 特征 |
4 | start | 信号肽起始位置。 |
5 | end | 信号肽终止位置 |
6 | likehood | 可能性 |
7 | - | . |
8 | - | . |
9 | - | . |
制表符分割的文本文档,使用 excel 打开。 文件内容举例如下:
文件内容说明如下:
列数 | 列标题 | 说明 |
---|---|---|
1 | seq id | 序列名称 |
2 | len | 蛋白序列的长度。The length of the protein sequence. |
3 | ExpAA | 跨膜螺旋中氨基酸的预期数量。如果此数字大于 18,则很可能是跨膜蛋白(或具有信号肽 |
4 | First60 | 在蛋白的前 60 个氨基酸中跨膜螺旋中氨基酸的预期数量 |
5 | PredHel | 预测到的跨膜螺旋的数量 |
6 | Topology | N-best 预测的拓扑结构。拓扑是由跨膜螺旋的位置给出的,如果螺旋在内部,则由 “i” 分隔,如果螺旋在外部,则由 “o” 分隔。'i7-29o44-66i87-109o' 意味着它从膜内开始,在位置 7 到 29 有一个预测的 TMH,30-43 在膜外,然后是位置 44-66 的 TMH。 |
FASTA 格式(又称为 Pearson 格式),是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单 个字母来编码,且允许在序列前添加序列名及注释。序列文件的第一行是由大于号">"或分号";"打头的任意文字说明(习惯常用">"作为 起始),用于序列标记。从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可,而氨基酸常用大写字母。