01.Data_qc/
├──illumina_fastp.xls   [二代测序数据质控结果]
└──pacbio_sum.xls       [三代测序数据longQC质控结果]

高通量测序得到的图像经 Base Calling 转化为原始测序序列(Reads),我们称之为 Raw Data 或 Raw Reads,结果以 FASTQ(简写为fq)文件格式储存,它包含测序序列(Reads)的序列信息及其对应的测序质量信息。PE 文库的数据结果中,每个样品均有测序两端的 Reads,并且 Reads 的顺序是严格一致、相互对应的。 FASTQ 文件中每条 read 都由四行构成,文件格式如下:

图1-1-1 FASTQ格式文件内容示例

其中,第 1 行和第 3 行为 read 名称(后来为了节省储存空间省略掉第 3 行“+”后面的序列名称),由 Illumina 测序仪产生;第 2 行是 read 的碱基序列,第 4 行是 read 中每个碱基对应的测序质量分数,由 Base Calling 转化而来,每个字母对应的 ASCII 值减去相应测序质量系统的 Phred quality score(33 或 64),即为该碱基的测序质量值(Phred 值)。

在获得每个样品二代测序数据之后,首先需要对测序的数据质量进行评估并对低质量的数据进行去除,以保证后续分析结果的可信度,以上步骤称之为原始数据的质量控制。质量控制获得的高质量序列则用于下游的数据分析。质控流程采用软件fastp[2],具体处理步骤如下:

  1. 去除带接头(adapter)的 paired reads;
  2. 当单端测序read 中含有的低质量(sQ <= 20)碱基数超过该条read碱基总数的20%时,去除此 paired reads;
  3. 去除PCR扩增产生的重复reads。

测序数据质控前后的质量信息统计表格如下:

表1-1-1 原始数据的质量信息统计表格(illumina_fastp.xls)

sampleID Raw total reads Raw total bases(Mb) Raw Q20 rate Raw Q30 rate Clean total reads Clean total bases(Mb) Clean Q20 rate Clean Q30 rate Clean gc content(%) Filtered Reads(%)
C1 5956966 893.54M 96.92 91.59 5954198 862.1M 97.12 91.83 51.12 96.48
C2 5956966 893.54M 96.92 91.59 5954198 862.1M 97.12 91.83 51.12 96.48
Z1 10825608 1623.84M 96.96 91.70 10820610 1564.93M 97.21 92.00 40.46 96.37

  1. sampleID: 样本ID
  2. Raw total reads: 原始测序数据reads数
  3. Raw total bases(Mb): 样本碱基总数
  4. Raw Q20 rate: 质控前质量分测序高于20(错误率0.01)的碱基占比(Q20)
  5. Raw Q30 rate: 质控前质量分测序高于30(错误率0.001)的碱基占比(Q30)
  6. Clean total reads:质控后测序数据reads数
  7. Clean total bases(Mb):质控后测序数据碱基数
  8. Clean Q20 rate:质控后测序质量Q20比例
  9. Clean Q30 rate:质控后测序质量Q30比例
  10. Clean gc content(%):质控后测序数据GC含量
  11. Filtered Reads(%):质控后保留碱基数比例

分析所用软件的版本

软件 版本
bam2fastq 1.3.1
fastp 0.23.1

参考文献

  • [1] https://github.com/pacificbiosciences/bam2fastx/
  • [2] Shifu Chen, Yanqing Zhou, Yaru Chen, Jia Gu; fastp: an ultra-fast all-in-one FASTQ preprocessor, Bioinformatics, Volume 34, Issue 17, 1 September 2018, Pages i884–i890, https://doi.org/10.1093/bioinformatics/bty560