微科盟细菌基因组完成图结题报告

高通量测序得到的图像经 Base Calling 转化为原始测序序列（Reads），我们称之为 Raw Data 或 Raw Reads，结果以 FASTQ（简写为fq）文件格式储存，它包含测序序列（Reads）的序列信息及其对应的测序质量信息。PE 文库的数据结果中，每个样品均有测序两端的 Reads，并且 Reads 的顺序是严格一致、相互对应的。 FASTQ 文件中每条 read 都由四行构成，文件格式如下：

图1-1-1 FASTQ格式文件内容示例

其中，第 1 行和第 3 行为 read 名称（后来为了节省储存空间省略掉第 3 行“+”后面的序列名称），由 Illumina 测序仪产生；第 2 行是 read 的碱基序列，第 4 行是 read 中每个碱基对应的测序质量分数，由 Base Calling 转化而来，每个字母对应的 ASCII 值减去相应测序质量系统的 Phred quality score（33 或 64），即为该碱基的测序质量值（Phred 值）。

在获得每个样品二代测序数据之后，首先需要对测序的数据质量进行评估并对低质量的数据进行去除，以保证后续分析结果的可信度，以上步骤称之为原始数据的质量控制。质量控制获得的高质量序列则用于下游的数据分析。质控流程采用软件fastp^[2]，具体处理步骤如下：

表1-1-1 原始数据的质量信息统计表格(illumina_fastp.xls)

sampleID	Raw total reads	Raw total bases(Mb)	Raw Q20 rate	Raw Q30 rate	Clean total reads	Clean total bases(Mb)	Clean Q20 rate	Clean Q30 rate	Clean gc content(%)	Filtered Reads(%)
C1	5956966	893.54M	96.92	91.59	5954198	862.1M	97.12	91.83	51.12	96.48
C2	5956966	893.54M	96.92	91.59	5954198	862.1M	97.12	91.83	51.12	96.48
Z1	10825608	1623.84M	96.96	91.70	10820610	1564.93M	97.21	92.00	40.46	96.37

sampleID: 样本ID
Raw total reads: 原始测序数据reads数
Raw total bases(Mb): 样本碱基总数
Raw Q20 rate: 质控前质量分测序高于20(错误率0.01)的碱基占比(Q20)
Raw Q30 rate: 质控前质量分测序高于30(错误率0.001)的碱基占比(Q30)
Clean total reads:质控后测序数据reads数
Clean total bases(Mb)：质控后测序数据碱基数
Clean Q20 rate：质控后测序质量Q20比例
Clean Q30 rate：质控后测序质量Q30比例
Clean gc content(%)：质控后测序数据GC含量
Filtered Reads(%)：质控后保留碱基数比例

软件	版本
bam2fastq	1.3.1
fastp	0.23.1

图1-1-1 FASTQ格式文件内容示例

表1-1-1 原始数据的质量信息统计表格(illumina_fastp.xls)

分析所用软件的版本

参考文献