组装结果说明

结果简介

使用unicycle软件,以质控后的clean data作为输入数据,做基因组组装。 为了鉴别组装出来是质粒还是染色体,使用RFPlasmid软件(默认参数:--species Generic --jelly)来区分质粒和染色体。 将 reads 比对到组装序列上,统计测序深度的分布情况,根据序列长度及比对的方法区分初步组装的序列为染色体序列还是质粒序列,并检验序列是否成环。本文件夹内为组装结果文件及统计结果。

如无特殊说明,以下内容中的“*”代表目标物种的样品名。

目录结构

02.Assembly/. ├── all_assembly_stats.xls【最终组装结果统计结果】 ├── all_sample_gc_depth_stat.xls【基因组gc_depth估计结果统计表】 ├── all_sample_genomesize_stat.xls【基因组大小估计结果统计表】 ├── all_samples_stats.xls 【最终组装结果统计表】 ├──* │ ├──*.all.plassmid.blast.summary.top5【质粒注释结果,若无质粒,则无此文件】 │ ├──*.final.assembly.Chromosome.fasta【染色体序列】 │ ├──*.final.assembly.fasta【最终组装序列,包含质粒和染色体】 │ ├──*.final.Plasmid.fasta【最终质粒序列,若无质粒,则无此文件】 │ ├──*.final.stat.xls【统计文件】 │ ├── genome_gc_depth【GC-Depth分析文件夹】 │ │ ├──*.gc_depth_describe.txt【GC-Depth分析及污染评估的文字描述】 │ │ ├──*.gc_depth.pdf【GC-Depth图片,pdf格式】 │ │ └──*.gc_depth.png【GC-Depth图片,png格式】 │ └── genome_size【基因组大小评估分析文件夹】 │ ├── plot.png【基因组大小评估分析文件结果图】 │ └── summary.txt【基因组大小评估分析文件夹结果】

格式说明

all_assembly_stats.xls-最终组装结果统计结果

制表符分割的文本文档,使用 excel 打开。

文件内容举例如下:

image-20230413215256570

文件内容说明如下:

列数列标题说明
1sampleID样本
2contigscontigs数量
3Total contig length总长度
4Contig N50N50
6Largest contig最大contig长度
7GC content %GC含量

 

all_sample_gc_depth_stat.xls-基因组gc_depth估计结果统计表

此文件从二代gc_depth分析中得出二代平均测序深度和样本是否有污染。

制表符分割的文本文档,使用 记事本打开。 文件内容对应于**.gc_depth_describe.txt文件。

文件内容举例如下:

image-20230413215947704

all_sample_genomesize_stat.xls-基因组大小估计结果统计表

制表符分割的文本文档,使用 excel 打开。

文件内容举例如下:

image-20230411113833701

文件内容说明如下:

列数列标题说明
1sampleID样本编号
2Heterozygosity杂合率
3Genome_Haploid_Length(bp)基因组大小

 

all_samples_stats.xls -最终组装结果统计表

制表符分割的文本文档,使用 excel 打开。 文件内容对应于*.final.stat.xls文件。

文件内容举例如下:

image-20230413220620464

文件内容说明如下:

列数列标题说明
1Sample ID样本编号
2Type类型,质粒或染色体
3Contig ID 序列ID
4Size(bp)序列长度
5GC%序列GC含量
6circular是否是已经环化的序列。

*.all.plassmid.blast.summary.top5-质粒注释结果,若无质粒,则无此文件

制表符分割的文本文档,使用 excel 打开。

文件内容举例如下:

image-20230413221046201

列数列标题说明
1qseqid目标物种的氨基酸序列的 ID,编号的有效字符有[a-zA-Z0-9.:^x!+_?-]
2ACC_NUCCORE 数据库序列的 ID
3pident 目标物种的氨基酸序列与数据库序列比对的 Identity 值
4length 目标物种的氨基酸序列与数据库序列比对的长度
5mismatch 目标物种的氨基酸序列与数据库序列比对区域的比对错配数
6gapopen 目标物种的氨基酸序列与数据库序列比对区域的比对空位数。
7qstart 目标物种的氨基酸序列的比对起始坐标
8qend 目标物种的氨基酸序列的比对终止坐标
9sstart 数据库序列的比对起始坐标
10send数据库序列的比对终止坐标
11evalue 目标物种的氨基酸序列与数据库序列比对的期望值
12bitscore目标物种的氨基酸序列与数据库序列比对的比对得分
13Topology_NUCCORE拓扑结构,是否环化
14CreateDate_NUCCORE数据库收集序列日期
15Location_BIOSAMPLE收集地点
16loc_parsed详细地点
17loc_lat收集地点维度
18loc_lng经度
19IsolationSource_BIOSAMPLE样本分离来源
20Host_BIOSAMPLE宿主
21SamplType_BIOSAMPLE样本类型
22plasmidfinderplasmidfinder说明
23pmlstpmlst类型
24Length_NUCCORE长度
25GC_NUCCOREgc含量
26taxon_species_name物种名(物种在ncbi分类号)
   

*.final.assembly.Chromosome.fasta-染色体序列

FASTA 文件,可用文本编辑器打开。

格式实例详细说明见【4 常用格式】中【4.1 FASTA 格式】部分

*.final.assembly.fasta-最终组装序列,包含质粒和染色体

FASTA 文件,可用文本编辑器打开。

格式实例详细说明见【4 常用格式】中【4.1 FASTA 格式】部分

*.final.Plasmid.fasta-最终质粒序列,若无质粒,则无此文件

FASTA 文件,可用文本编辑器打开。

格式实例详细说明见【4 常用格式】中【4.1 FASTA 格式】部分

*.final.stat.xls-统计文件

制表符分割的文本文档,使用 excel 打开。 文件内容对应于 all_samples_stats.xls文件,相关说明见 all_samples_stats.xls。

*.gc_depth_describe.txt -GC-Depth分析及污染评估的文字描述

GC-Depth分析及污染评估的文字描述。

文件内容举例如下:

image-20230411114844308

*.gc_depth.pdf-GC-Depth图片,pdf格式

PDF 格式,与*.gc_depth.png内容一致

*.gc_depth.png-GC-Depth图片,pdf格式

PNG 格式,用图片浏览器打开。与*.gc_depth_describe.txt相对应。

图片示例如下:

C34.gc_depth

plot.png-基因组大小评估分析文件结果图

用k-mer分析进行基因组调查:(四)用GenomeScope评估基因组特征+用Smudgeplot估计倍性

summary.txt【基因组大小评估分析文件结果】

在该文件中,会给出杂合度(Heterozygosity ),基因组大小(Genome Haploid Length ),重复片段长度(Genome Repeat Length), 基因组独特序列长度(Genome Unique Length), 模型适合度( Model Fit), 序列错误率(Read Error Rate) 详细信息。

制表符分割的文本文档,使用 记事本打开。

image-20230411130052101

常用格式

FASTA 格式

FASTA 格式(又称为 Pearson 格式),是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单 个字母来编码,且允许在序列前添加序列名及注释。序列文件的第一行是由大于号">"或分号";"打头的任意文字说明(习惯常用">"作为 起始),用于序列标记。从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可,而氨基酸常用大写字母。如:

>scaffold1 35.9 AACTCCAAATGTTTTACATCCTTTTTTTATCCATAATATATAATCAACTGATATACAAAATGAAAAAATACTACCTACATTTTTATTAGGC TTATTTTATTAAAATAAGGTTGGTGTTGTGGAAATAGCCATTCT…

目录