组装得到的转录本可以从多方面进行评估。首先需要对序列长度和片段化程度进行评估,组装结果包含多个短序列时会过于碎片化,这可能是测序质量差或组装不当导致的。
组装得到的基因、转录本数量和CG碱基比例如下表所示:
基因总数: | 96769 |
转录本(包含isoform)总数: | 141327 |
CG碱基含量百分数: | 58.28 |
N50统计量(组装序列长度的中位数)常用来评估组装质量。然而简单使用N50统计量评估转录组的组装质量是不合适的,因为转录组组装的目的是恢复许多相对较短的contig,而不是少数非常长的contig,因此使用N50统计量会得到严重偏斜的组装结果统计。ExN50统计量是对传统N50统计量的修改,它避开了短的低表达转录本或长的高表达转录本的影响,使其适用于评估转录组组装。
我们可以依据Nx统计量对转录本进行组装质量评估,根据所有组装的contig计算得出N10 到 N50 值。
Nx | Contig Number |
---|---|
Contig N10: | 4729 |
Contig N20: | 3450 |
Contig N30: | 2631 |
Contig N40: | 2031 |
Contig N50: | 1540 |
其中,contig长度的中位数是:531均值是:939.76,共包含132814101个碱基。
组装生成过多转录本同源异构体(isoform)时,contig N50值通常会被夸大。为了减轻这种影响,我们还将根据每个组装得到的gene的最长同源异构体来计算 Nx 值。
Nx | Contig Number |
---|---|
Contig N10: | 4296 |
Contig N20: | 3008 |
Contig N30: | 2221 |
Contig N40: | 1640 |
Contig N50: | 1182 |
在只考虑每个gene的最长同源异构体的情况下,contig长度的中位数是:454均值是:783.84,共包含75851472个碱基。