基因和单倍型的Nx统计

组装得到的转录本可以从多方面进行评估。首先需要对序列长度和片段化程度进行评估,组装结果包含多个短序列时会过于碎片化,这可能是测序质量差或组装不当导致的。

组装得到的基因、转录本数量和CG碱基比例如下表所示:

基因总数:96769
转录本(包含isoform)总数:141327
CG碱基含量百分数:58.28

N50统计量(组装序列长度的中位数)常用来评估组装质量。然而简单使用N50统计量评估转录组的组装质量是不合适的,因为转录组组装的目的是恢复许多相对较短的contig,而不是少数非常长的contig,因此使用N50统计量会得到严重偏斜的组装结果统计。ExN50统计量是对传统N50统计量的修改,它避开了短的低表达转录本或长的高表达转录本的影响,使其适用于评估转录组组装。

我们可以依据Nx统计量对转录本进行组装质量评估,根据所有组装的contig计算得出N10 到 N50 值。

Nx Contig Number
Contig N10:4729
Contig N20:3450
Contig N30:2631
Contig N40:2031
Contig N50:1540

其中,contig长度的中位数是:531均值是:939.76,共包含132814101个碱基。

组装生成过多转录本同源异构体(isoform)时,contig N50值通常会被夸大。为了减轻这种影响,我们还将根据每个组装得到的gene的最长同源异构体来计算 Nx 值。

Nx Contig Number
Contig N10:4296
Contig N20:3008
Contig N30:2221
Contig N40:1640
Contig N50:1182

在只考虑每个gene的最长同源异构体的情况下,contig长度的中位数是:454均值是:783.84,共包含75851472个碱基。