组装结果说明结果简介 目录结构格式说明all_assembly_stats.xls-最终组装结果统计结果all_sample_gc_depth_stat.xls-基因组gc_depth估计结果统计表all_sample_genomesize_stat.xls-基因组大小估计结果统计表 all_samples_stats.xls -最终组装结果统计表*.all.plassmid.blast.summary.top5-质粒注释结果,若无质粒,则无此文件*.final.assembly.Chromosome.fasta-染色体序列*.final.assembly.fasta-最终组装序列,包含质粒和染色体*.final.Plasmid.fasta-最终质粒序列,若无质粒,则无此文件*.final.stat.xls-统计文件*.gc_depth_describe.txt -GC-Depth分析及污染评估的文字描述*.gc_depth.pdf-GC-Depth图片,pdf格式*.gc_depth.png-GC-Depth图片,pdf格式plot.png-基因组大小评估分析文件结果图 summary.txt【基因组大小评估分析文件结果】常用格式 FASTA 格式
使用unicycle软件,以质控后的clean data作为输入数据,做基因组组装。 为了鉴别组装出来是质粒还是染色体,使用RFPlasmid软件(默认参数:--species Generic --jelly)来区分质粒和染色体。 将 reads 比对到组装序列上,统计测序深度的分布情况,根据序列长度及比对的方法区分初步组装的序列为染色体序列还是质粒序列,并检验序列是否成环。本文件夹内为组装结果文件及统计结果。
如无特殊说明,以下内容中的“*”代表目标物种的样品名。
02.Assembly/. ├── all_assembly_stats.xls【最终组装结果统计结果】 ├── all_sample_gc_depth_stat.xls【基因组gc_depth估计结果统计表】 ├── all_sample_genomesize_stat.xls【基因组大小估计结果统计表】 ├── all_samples_stats.xls 【最终组装结果统计表】 ├──* │ ├──*.all.plassmid.blast.summary.top5【质粒注释结果,若无质粒,则无此文件】 │ ├──*.final.assembly.Chromosome.fasta【染色体序列】 │ ├──*.final.assembly.fasta【最终组装序列,包含质粒和染色体】 │ ├──*.final.Plasmid.fasta【最终质粒序列,若无质粒,则无此文件】 │ ├──*.final.stat.xls【统计文件】 │ ├── genome_gc_depth【GC-Depth分析文件夹】 │ │ ├──*.gc_depth_describe.txt【GC-Depth分析及污染评估的文字描述】 │ │ ├──*.gc_depth.pdf【GC-Depth图片,pdf格式】 │ │ └──*.gc_depth.png【GC-Depth图片,png格式】 │ └── genome_size【基因组大小评估分析文件夹】 │ ├── plot.png【基因组大小评估分析文件结果图】 │ └── summary.txt【基因组大小评估分析文件夹结果】
制表符分割的文本文档,使用 excel 打开。
文件内容举例如下:
文件内容说明如下:
列数 | 列标题 | 说明 |
---|---|---|
1 | sampleID | 样本 |
2 | contigs | contigs数量 |
3 | Total contig length | 总长度 |
4 | Contig N50 | N50 |
6 | Largest contig | 最大contig长度 |
7 | GC content % | GC含量 |
此文件从二代gc_depth分析中得出二代平均测序深度和样本是否有污染。
制表符分割的文本文档,使用 记事本打开。 文件内容对应于**.gc_depth_describe.txt文件。
文件内容举例如下:
制表符分割的文本文档,使用 excel 打开。
文件内容举例如下:
文件内容说明如下:
列数 | 列标题 | 说明 |
---|---|---|
1 | sampleID | 样本编号 |
2 | Heterozygosity | 杂合率 |
3 | Genome_Haploid_Length(bp) | 基因组大小 |
制表符分割的文本文档,使用 excel 打开。 文件内容对应于*.final.stat.xls文件。
文件内容举例如下:
文件内容说明如下:
列数 | 列标题 | 说明 |
---|---|---|
1 | Sample ID | 样本编号 |
2 | Type | 类型,质粒或染色体 |
3 | Contig ID | 序列ID |
4 | Size(bp) | 序列长度 |
5 | GC% | 序列GC含量 |
6 | circular | 是否是已经环化的序列。 |
制表符分割的文本文档,使用 excel 打开。
文件内容举例如下:
列数 | 列标题 | 说明 |
---|---|---|
1 | qseqid | 目标物种的氨基酸序列的 ID,编号的有效字符有[a-zA-Z0-9.:^x!+_?-] |
2 | ACC_NUCCORE | 数据库序列的 ID |
3 | pident | 目标物种的氨基酸序列与数据库序列比对的 Identity 值 |
4 | length | 目标物种的氨基酸序列与数据库序列比对的长度 |
5 | mismatch | 目标物种的氨基酸序列与数据库序列比对区域的比对错配数 |
6 | gapopen | 目标物种的氨基酸序列与数据库序列比对区域的比对空位数。 |
7 | qstart | 目标物种的氨基酸序列的比对起始坐标 |
8 | qend | 目标物种的氨基酸序列的比对终止坐标 |
9 | sstart | 数据库序列的比对起始坐标 |
10 | send | 数据库序列的比对终止坐标 |
11 | evalue | 目标物种的氨基酸序列与数据库序列比对的期望值 |
12 | bitscore | 目标物种的氨基酸序列与数据库序列比对的比对得分 |
13 | Topology_NUCCORE | 拓扑结构,是否环化 |
14 | CreateDate_NUCCORE | 数据库收集序列日期 |
15 | Location_BIOSAMPLE | 收集地点 |
16 | loc_parsed | 详细地点 |
17 | loc_lat | 收集地点维度 |
18 | loc_lng | 经度 |
19 | IsolationSource_BIOSAMPLE | 样本分离来源 |
20 | Host_BIOSAMPLE | 宿主 |
21 | SamplType_BIOSAMPLE | 样本类型 |
22 | plasmidfinder | plasmidfinder说明 |
23 | pmlst | pmlst类型 |
24 | Length_NUCCORE | 长度 |
25 | GC_NUCCORE | gc含量 |
26 | taxon_species_name | 物种名(物种在ncbi分类号) |
FASTA 文件,可用文本编辑器打开。
格式实例详细说明见【4 常用格式】中【4.1 FASTA 格式】部分
FASTA 文件,可用文本编辑器打开。
格式实例详细说明见【4 常用格式】中【4.1 FASTA 格式】部分
FASTA 文件,可用文本编辑器打开。
格式实例详细说明见【4 常用格式】中【4.1 FASTA 格式】部分
制表符分割的文本文档,使用 excel 打开。 文件内容对应于 all_samples_stats.xls文件,相关说明见 all_samples_stats.xls。
GC-Depth分析及污染评估的文字描述。
文件内容举例如下:
PDF 格式,与*.gc_depth.png内容一致
PNG 格式,用图片浏览器打开。与*.gc_depth_describe.txt相对应。
图片示例如下:
在该文件中,会给出杂合度(Heterozygosity ),基因组大小(Genome Haploid Length ),重复片段长度(Genome Repeat Length), 基因组独特序列长度(Genome Unique Length), 模型适合度( Model Fit), 序列错误率(Read Error Rate) 详细信息。
制表符分割的文本文档,使用 记事本打开。
FASTA 格式(又称为 Pearson 格式),是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单 个字母来编码,且允许在序列前添加序列名及注释。序列文件的第一行是由大于号">"或分号";"打头的任意文字说明(习惯常用">"作为 起始),用于序列标记。从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可,而氨基酸常用大写字母。如:
>scaffold1 35.9 AACTCCAAATGTTTTACATCCTTTTTTTATCCATAATATATAATCAACTGATATACAAAATGAAAAAATACTACCTACATTTTTATTAGGC TTATTTTATTAAAATAAGGTTGGTGTTGTGGAAATAGCCATTCT…