评估转录组组装质量的一个指标是检查组装成全长(或接近全长)的转录本的数量。一个通用的评估方式是将组装的转录本与所有已知的蛋白质进行比对并统计匹配到蛋白质的数量。
Uniprot(Universal Protein)是包含蛋白质序列,功能信息,研究论文索引的蛋白质数据库。其中,Swiss-Prot旨在提供与高水平注释(例如,蛋白质功能,其域结构,翻译后修饰,变体等的描述)相关的可靠蛋白质序列,最小程度的冗余和高水平与其他数据库的集成级别。注释主要来自文献中的研究成果和E-value校验过计算分析结果。我们使用该数据库对组装得到的转录本进行分析,结果如下表所示。
Hit Percent Cover Bin | Count in Bin | >Bin Below |
---|---|---|
100 | 1240 | 1240 |
90 | 741 | 1981 |
80 | 611 | 2592 |
70 | 584 | 3176 |
60 | 578 | 3754 |
50 | 602 | 4356 |
40 | 673 | 5029 |
30 | 712 | 5741 |
20 | 660 | 6401 |
10 | 177 | 6578 |