01.Data_qc/ ├──illumina_fastp.xls [二代测序数据质控结果] └──pacbio_sum.xls [三代测序数据longQC质控结果]
高通量测序得到的图像经 Base Calling 转化为原始测序序列(Reads),我们称之为 Raw Data 或 Raw Reads,结果以 FASTQ(简写为fq)文件格式储存,它包含测序序列(Reads)的序列信息及其对应的测序质量信息。PE 文库的数据结果中,每个样品均有测序两端的 Reads,并且 Reads 的顺序是严格一致、相互对应的。 FASTQ 文件中每条 read 都由四行构成,文件格式如下:
其中,第 1 行和第 3 行为 read 名称(后来为了节省储存空间省略掉第 3 行“+”后面的序列名称),由 Illumina 测序仪产生;第 2 行是 read 的碱基序列,第 4 行是 read 中每个碱基对应的测序质量分数,由 Base Calling 转化而来,每个字母对应的 ASCII 值减去相应测序质量系统的 Phred quality score(33 或 64),即为该碱基的测序质量值(Phred 值)。
在获得每个样品二代测序数据之后,首先需要对测序的数据质量进行评估并对低质量的数据进行去除,以保证后续分析结果的可信度,以上步骤称之为原始数据的质量控制。质量控制获得的高质量序列则用于下游的数据分析。质控流程采用软件fastp[2],具体处理步骤如下:
测序数据质控前后的质量信息统计表格如下:
sampleID | Raw total reads | Raw total bases(Mb) | Raw Q20 rate | Raw Q30 rate | Clean total reads | Clean total bases(Mb) | Clean Q20 rate | Clean Q30 rate | Clean gc content(%) | Filtered Reads(%) |
---|---|---|---|---|---|---|---|---|---|---|
C1 | 5956966 | 893.54M | 96.92 | 91.59 | 5954198 | 862.1M | 97.12 | 91.83 | 51.12 | 96.48 |
C2 | 5956966 | 893.54M | 96.92 | 91.59 | 5954198 | 862.1M | 97.12 | 91.83 | 51.12 | 96.48 |
Z1 | 10825608 | 1623.84M | 96.96 | 91.70 | 10820610 | 1564.93M | 97.21 | 92.00 | 40.46 | 96.37 |
软件 | 版本 |
---|---|
bam2fastq | 1.3.1 |
fastp | 0.23.1 |