02.Assemble/ ├── all_assembly_stats.xls[最终组装结果统计结果] ├── all_sample_gc_depth_stat.xls[基因组gc_depth估计结果统计表] ├── all_sample_genomesize_stat.xls[基因组大小估计结果统计表] ├──* │ ├──*.final.assembly.fasta[最终组装序列] │ ├──*.final.stat.xls[统计文件] │ ├── genome_gc_depth[GC-Depth分析文件夹] │ │ ├──*.gc_depth_describe.txt[GC-Depth分析及污染评估的文字描述] │ │ ├──*.gc_depth.pdf[GC-Depth图片,pdf格式] │ │ └──*.gc_depth.png[GC-Depth图片,png格式] │ └── genome_size[基因组大小评估分析文件夹] │ ├── plot.png[基因组大小评估分析文件结果图] │ └── summary.txt[基因组大小评估分析文件夹结果]
使用unicycler[2]软件(默认参数:--keep 0 --min_fasta_length 1000),以质控后的clean data作为输入数据,做基因组组装。
组装出来的基因组序列文件请查看*final.assembly.fasta文件。
详细结果说明见组装结果说明。
sampleID | contigs | Total contig length | Contig N50 | Largest contig | GC content % |
---|---|---|---|---|---|
C1 | 117 | 4863531 | 187445 | 398091 | 50.64 |
C2 | 117 | 4863531 | 187445 | 398091 | 50.64 |
Z1 | 113 | 3971325 | 209062 | 453425 | 38.93 |
基因组大小是指单倍体细胞核中的所含的DNA的总量。预测未知基因组大小的方法可以通过 Illumina 测序数据的 k-mer 分析进行估计。
我们使用利用Jellyfish[5]对reads进行处理,获得不同频率的k-mer信息,然后利用相应的软件进行基因组大小预估。而Kmerfreq利用自身算法进行K-mer剪切(K-mer=17)统计,利用K-mer频率分布使用GenomeScope[6]进行基因组大小预估。
sampleID | Heterozygosity | Genome_Haploid_Length |
---|---|---|
C1 | 0.08 | 4970504.0 |
C2 | 0.08 | 4970504.0 |
Z1 | 0.37 | 3635336.0 |
对组装的基因组序列以500bp为滑窗窗口(windows),计算滑窗窗口的平均GC含量和平均深度并作图。基于每一个windows对应的平均GC和平均深度进行绘图。可以根据此图分析测序数据是否存在GC偏向性以及样本是否存在污染。
我们使用bwa[4]和相应脚本对组装后的基因组序列和质控后测序序列进行分析,详细统计结果见下表:
sampleID | ill_depth | ill_reslut |
---|---|---|
C1 | 175 | 样本无明显污染 |
C2 | 175 | 样本无明显污染 |
Z1 | 438 | 样本无明显污染 |
软件 | 版本 |
---|---|
quast | 2.1.5 |
unicycler | 2.2.1 |
bwa | 0.7.17-r1188 |
Jellyfish | 1 |
GenomeScope | V1 |