组装结果说明结果简介目录结构格式说明all_assembly_stats.xls-最终组装结果统计结果all_sample_gc_depth_stat.xls-基因组gc_depth估计结果统计表all_sample_genomesize_stat.xls-基因组大小估计结果统计表 all_samples_stats.xls -最终组装结果统计表*.all.plassmid.blast.summary.top5-质粒注释结果，若无质粒，则无此文件*.final.assembly.Chromosome.fasta-染色体序列*.final.assembly.fasta-最终组装序列，包含质粒和染色体*.final.Plasmid.fasta-最终质粒序列，若无质粒，则无此文件*.final.stat.xls-统计文件*.gc_depth_describe.txt -GC-Depth分析及污染评估的文字描述*.gc_depth.pdf-GC-Depth图片，pdf格式*.gc_depth.png-GC-Depth图片，pdf格式plot.png-基因组大小评估分析文件结果图 summary.txt【基因组大小评估分析文件结果】常用格式 FASTA 格式

组装结果说明

结果简介

使用unicycle软件,以质控后的clean data作为输入数据,做基因组组装。为了鉴别组装出来是质粒还是染色体，使用RFPlasmid软件（默认参数：--species Generic --jelly）来区分质粒和染色体。将 reads 比对到组装序列上，统计测序深度的分布情况，根据序列长度及比对的方法区分初步组装的序列为染色体序列还是质粒序列，并检验序列是否成环。本文件夹内为组装结果文件及统计结果。

如无特殊说明，以下内容中的“*”代表目标物种的样品名。

目录结构

02.Assembly/. ├── all_assembly_stats.xls【最终组装结果统计结果】 ├── all_sample_gc_depth_stat.xls【基因组gc_depth估计结果统计表】 ├── all_sample_genomesize_stat.xls【基因组大小估计结果统计表】 ├── all_samples_stats.xls 【最终组装结果统计表】 ├──* │ ├──*.all.plassmid.blast.summary.top5【质粒注释结果，若无质粒，则无此文件】 │ ├──*.final.assembly.Chromosome.fasta【染色体序列】 │ ├──*.final.assembly.fasta【最终组装序列，包含质粒和染色体】 │ ├──*.final.Plasmid.fasta【最终质粒序列，若无质粒，则无此文件】 │ ├──*.final.stat.xls【统计文件】 │ ├── genome_gc_depth【GC-Depth分析文件夹】 │ │ ├──*.gc_depth_describe.txt【GC-Depth分析及污染评估的文字描述】 │ │ ├──*.gc_depth.pdf【GC-Depth图片，pdf格式】 │ │ └──*.gc_depth.png【GC-Depth图片，png格式】 │ └── genome_size【基因组大小评估分析文件夹】 │ ├── plot.png【基因组大小评估分析文件结果图】 │ └── summary.txt【基因组大小评估分析文件夹结果】

格式说明

all_assembly_stats.xls-最终组装结果统计结果

制表符分割的文本文档，使用 excel 打开。

文件内容举例如下：

文件内容说明如下：

列数	列标题	说明
1	sampleID	样本
2	contigs	contigs数量
3	Total contig length	总长度
4	Contig N50	N50
6	Largest contig	最大contig长度
7	GC content %	GC含量

all_sample_gc_depth_stat.xls-基因组gc_depth估计结果统计表

此文件从二代gc_depth分析中得出二代平均测序深度和样本是否有污染。

制表符分割的文本文档，使用记事本打开。文件内容对应于**.gc_depth_describe.txt文件。

文件内容举例如下：

all_sample_genomesize_stat.xls-基因组大小估计结果统计表

制表符分割的文本文档，使用 excel 打开。

文件内容举例如下：

文件内容说明如下：

列数	列标题	说明
1	sampleID	样本编号
2	Heterozygosity	杂合率
3	Genome_Haploid_Length(bp)	基因组大小

all_samples_stats.xls -最终组装结果统计表

制表符分割的文本文档，使用 excel 打开。文件内容对应于*.final.stat.xls文件。

文件内容举例如下：

文件内容说明如下：

列数	列标题	说明
1	Sample ID	样本编号
2	Type	类型，质粒或染色体
3	Contig ID	序列ID
4	Size（bp）	序列长度
5	GC%	序列GC含量
6	circular	是否是已经环化的序列。

*.all.plassmid.blast.summary.top5-质粒注释结果，若无质粒，则无此文件

制表符分割的文本文档，使用 excel 打开。

文件内容举例如下：

列数	列标题	说明
1	qseqid	目标物种的氨基酸序列的 ID，编号的有效字符有[a-zA-Z0-9.:^x!+_?-]
2	ACC_NUCCORE	数据库序列的 ID
3	pident	目标物种的氨基酸序列与数据库序列比对的 Identity 值
4	length	目标物种的氨基酸序列与数据库序列比对的长度
5	mismatch	目标物种的氨基酸序列与数据库序列比对区域的比对错配数
6	gapopen	目标物种的氨基酸序列与数据库序列比对区域的比对空位数。
7	qstart	目标物种的氨基酸序列的比对起始坐标
8	qend	目标物种的氨基酸序列的比对终止坐标
9	sstart	数据库序列的比对起始坐标
10	send	数据库序列的比对终止坐标
11	evalue	目标物种的氨基酸序列与数据库序列比对的期望值
12	bitscore	目标物种的氨基酸序列与数据库序列比对的比对得分
13	Topology_NUCCORE	拓扑结构，是否环化
14	CreateDate_NUCCORE	数据库收集序列日期
15	Location_BIOSAMPLE	收集地点
16	loc_parsed	详细地点
17	loc_lat	收集地点维度
18	loc_lng	经度
19	IsolationSource_BIOSAMPLE	样本分离来源
20	Host_BIOSAMPLE	宿主
21	SamplType_BIOSAMPLE	样本类型
22	plasmidfinder	plasmidfinder说明
23	pmlst	pmlst类型
24	Length_NUCCORE	长度
25	GC_NUCCORE	gc含量
26	taxon_species_name	物种名（物种在ncbi分类号）

*.final.assembly.Chromosome.fasta-染色体序列

FASTA 文件，可用文本编辑器打开。

格式实例详细说明见【4 常用格式】中【4.1 FASTA 格式】部分

*.final.assembly.fasta-最终组装序列，包含质粒和染色体

FASTA 文件，可用文本编辑器打开。

格式实例详细说明见【4 常用格式】中【4.1 FASTA 格式】部分

*.final.Plasmid.fasta-最终质粒序列，若无质粒，则无此文件

FASTA 文件，可用文本编辑器打开。

格式实例详细说明见【4 常用格式】中【4.1 FASTA 格式】部分

*.final.stat.xls-统计文件

制表符分割的文本文档，使用 excel 打开。文件内容对应于 all_samples_stats.xls文件，相关说明见 all_samples_stats.xls。

*.gc_depth_describe.txt -GC-Depth分析及污染评估的文字描述

GC-Depth分析及污染评估的文字描述。

文件内容举例如下：

*.gc_depth.pdf-GC-Depth图片，pdf格式

PDF 格式，与*.gc_depth.png内容一致

*.gc_depth.png-GC-Depth图片，pdf格式

PNG 格式，用图片浏览器打开。与*.gc_depth_describe.txt相对应。

图片示例如下：

C34.gc_depth

plot.png-基因组大小评估分析文件结果图

用k-mer分析进行基因组调查：（四）用GenomeScope评估基因组特征+用Smudgeplot估计倍性

蓝色柱子是kmer的观测值；
橙红色拟合线部分对应着深度过低的kmer，这些kmer被认为是测序错误引入的；
黑色拟合线是除去被认为是错误的部分（橙红色拟合线部分）之后剩下的所有k-mer，这些被认为是可靠的kmer数据；
黄色拟合线被认为来自基因组非重复区域的K-mer分布；
垂直的黑色虚线为预测最低深度峰的整数倍覆盖度；

summary.txt【基因组大小评估分析文件结果】

在该文件中，会给出杂合度（Heterozygosity ），基因组大小（Genome Haploid Length ），重复片段长度（Genome Repeat Length）, 基因组独特序列长度（Genome Unique Length)，模型适合度（ Model Fit）, 序列错误率(Read Error Rate) 详细信息。

制表符分割的文本文档，使用记事本打开。

常用格式

FASTA 格式

FASTA 格式（又称为 Pearson 格式），是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码，且允许在序列前添加序列名及注释。序列文件的第一行是由大于号">"或分号";"打头的任意文字说明（习惯常用">"作为起始），用于序列标记。从第二行开始为序列本身，只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可，而氨基酸常用大写字母。如：

>scaffold1 35.9 AACTCCAAATGTTTTACATCCTTTTTTTATCCATAATATATAATCAACTGATATACAAAATGAAAAAATACTACCTACATTTTTATTAGGC TTATTTTATTAAAATAAGGTTGGTGTTGTGGAAATAGCCATTCT…