02.Assemble/
├── all_assembly_stats.xls[最终组装结果统计结果]
├── all_sample_gc_depth_stat.xls[基因组gc_depth估计结果统计表]
├── all_sample_genomesize_stat.xls[基因组大小估计结果统计表]
├──*
│   ├──*.final.assembly.fasta[最终组装序列]
│   ├──*.final.stat.xls[统计文件]
│   ├── genome_gc_depth[GC-Depth分析文件夹]
│   │   ├──*.gc_depth_describe.txt[GC-Depth分析及污染评估的文字描述]
│   │   ├──*.gc_depth.pdf[GC-Depth图片,pdf格式]
│   │   └──*.gc_depth.png[GC-Depth图片,png格式]
│   └── genome_size[基因组大小评估分析文件夹]
│       ├── plot.png[基因组大小评估分析文件结果图]
│       └── summary.txt[基因组大小评估分析文件夹结果]

使用unicycler[2]软件(默认参数:--keep 0 --min_fasta_length 1000),以质控后的clean data作为输入数据,做基因组组装。 组装出来的基因组序列文件请查看*final.assembly.fasta文件。
详细结果说明见组装结果说明

表2-1-1 样品基因组组装结果统计(all_assembly_stats.xls )

sampleID contigs Total contig length Contig N50 Largest contig GC content %
C1 117 4863531 187445 398091 50.64
C2 117 4863531 187445 398091 50.64
Z1 113 3971325 209062 453425 38.93

  1. Sample ID: 样本ID
  2. Type:类型,质粒或染色体;
  3. Contig ID:序列ID;
  4. Size(bp):序列长度
  5. GC%:GC含量

基因组大小是指单倍体细胞核中的所含的DNA的总量。预测未知基因组大小的方法可以通过 Illumina 测序数据的 k-mer 分析进行估计。
我们使用利用Jellyfish[5]对reads进行处理,获得不同频率的k-mer信息,然后利用相应的软件进行基因组大小预估。而Kmerfreq利用自身算法进行K-mer剪切(K-mer=17)统计,利用K-mer频率分布使用GenomeScope[6]进行基因组大小预估。

表2-2-1 基因组大小估计结果统计表(all_sample_genomesize_stat.xls)

sampleID Heterozygosity Genome_Haploid_Length
C1 0.08 4970504.0
C2 0.08 4970504.0
Z1 0.37 3635336.0

  1. sampleID: 样本ID
  2. Heterozygosity:杂合率
  3. Genome_Haploid_Length(bp):基因组大小

对组装的基因组序列以500bp为滑窗窗口(windows),计算滑窗窗口的平均GC含量和平均深度并作图。基于每一个windows对应的平均GC和平均深度进行绘图。可以根据此图分析测序数据是否存在GC偏向性以及样本是否存在污染。
我们使用bwa[4]和相应脚本对组装后的基因组序列和质控后测序序列进行分析,详细统计结果见下表:

表2-2-2 基因组GC_depth分析结果(all_sample_gc_depth_stat.xls)

sampleID ill_depth ill_reslut
C1 175 样本无明显污染
C2 175 样本无明显污染
Z1 438 样本无明显污染

  1. sampleID: 样本ID
  2. ill_depth:二代测序数据测序深度
  3. ill_reslut:二代测序数据GC_depth分析结果

分析所用软件的版本

软件 版本
quast 2.1.5
unicycler 2.2.1
bwa 0.7.17-r1188
Jellyfish 1
GenomeScope V1

参考文献

  • [1] Gurevich, Alexey et al. “QUAST: quality assessment tool for genome assemblies.” Bioinformatics (Oxford, England) vol. 29,8 (2013): 1072-5. doi:10.1093/bioinformatics/btt086
  • [2] Wick, Ryan R et al. “Unicycler: Resolving bacterial genome assemblies from short and long sequencing reads.” PLoS computational biology vol. 13,6 e1005595. 8 Jun. 2017, doi:10.1371/journal.pcbi.1005595
  • [3] van der Graaf-van Bloois, Linda et al. “RFPlasmid: predicting plasmid sequences from short-read assembly data using machine learning.” Microbial genomics vol. 7,11 (2021): 000683. doi:10.1099/mgen.0.000683
  • [4] Li, Heng, and Richard Durbin. “Fast and accurate long-read alignment with Burrows-Wheeler transform.” Bioinformatics (Oxford, England) vol. 26,5 (2010): 589-95. doi:10.1093/bioinformatics/btp698
  • [5] https://github.com/jamesturk/jellyfish
  • [6] Vurture, Gregory W et al. “GenomeScope: fast reference-free genome profiling from short reads.” Bioinformatics (Oxford, England) vol. 33,14 (2017): 2202-2204. doi:10.1093/bioinformatics/btx153