甲基化流程结果说明

结果简介

使用 SMRT 软件中的表观修饰模块包,对最终的基因组组装结果进行甲基化位点检测和 motif 的预测。能够预测到的修饰类 型包括 m6A,m4C 和 m5C,以及未知类型(modified_base)。

如无特殊说明,以下内容中的“*”代表目标物种的样品名.

目录结构

methylation/ ├── COG 【各motif在COG数据库分布结果】 │ ├──*[motifs].cog.stat.txt【各motif在COG数据库分布统计结果表】 │ ├── *[motifs].COG.tsv【各motif在COG数据库分布统计结果】 │ ├── *[motifs].motif.cog_cog_color.pdf【各motif在COG数据库分布统计结果图】 │ ├── *[motifs].motif.cog_cog_color.png【各motif在COG数据库分布统计结果图】 │ ├── *[motifs].motif.cog_ggplot2_color.pdf【各motif在COG数据库分布统计结果图】 │ └── *[motifs].motif.cog_ggplot2_color.png【各motif在COG数据库分布统计结果图】 ├── *.modifications.distribution.xls【甲基化 motif 在 GRs/IRGs 上的分布统计信息】 ├── *.motifs_anno_counts.tsv【甲基化motif在各个数据库注释结果统计表】 ├── *.motifs_anno.table.tsv【甲基化motif在各个数据库注释结果】 ├── *.motifs.csv【甲基化 motif 的 gff 文件】 ├── *.motifs.gff【甲基化 motif 的 gff 文件】 └── *.un_modifications.distribution.xls【未甲基化 motif 在 GRs/IRGs 上的分布统计】

格式说明

*[motifs].cog.stat.txt-各motif在COG数据库分布统计结果表

[motifs]为各对应的甲基化motif序列。

制表符分割的文本文档,使用 excel 打开。 文件内容对应于文件*_[motifs].COG.tsv。

文件内容举例如下:

image-20230417092223294

文件内容说明如下:

行数说明
1COG分类字母
2注释上的基因个数

*_[motifs].COG.tsv各motif在COG数据库分布统计结果

各motif在COG数据库分布结果。[motifs]为各对应的甲基化motif序列。

制表符分割的文本文档,使用 excel 打开。

文件内容举例如下:

image-20230417093213706

文件内容说明如下:

列数列名说明
1locus_tag基因名
2COG注释上的COG结果

*_[motifs].motif.cog_cog_color.pdf-各motif在COG数据库分布统计结果图

*[motifs].cog.stat.txt对应的pdf图片格式。

*_[motifs].motif.cog_cog_color.png内容一致。

*_[motifs].motif.cog_cog_color.png-各motif-在COG数据库分布统计结果图

PNG 格式,用图片浏览器打开。

对应*[motifs].cog.stat.txt文件。COG官方配色。

图片示例如下:

Z1_CAGAAC.motif.cog_cog_color

*_[motifs].motif.cog_ggplot2_color.pdf-各motif在COG数据库分布统计结果图

*[motifs].motif.cog_ggplot2_color.png内容一致。

*[motifs].motif.cog_ggplot2_color.png-各motif在COG数据库分布统计结果图

PNG 格式,用图片浏览器打开。

对应*_[motifs].motif.cog_cog_color.png文件,配色不同。

图片示例如下:

Z1_CAGAAC.motif.cog_ggplot2_color

*.modifications.distribution.xls-甲基化 motif 在 GRs/IRGs 上的分布统计信息

甲基化motif 类型在基因组上和基因间区上的数量。

制表符分割的文本文档,使用 excel 打开。

文件内容举例如下:

image-20230417094452885

文件内容说明如下:

列数列名说明
1sampleID样本名
2m6A.in_genomem4C甲基化类型在基因组上的数量
3m6A.in_GRm6A甲基化类型在基因区域上的数量
4m6A.in_IGRm6A甲基化类型在基因间区上的数量
5modified_base.in_genomemodified_base甲基化类型在基因组上的数量
6modified_base.in_GRmodified_base甲基化类型在基因区域上的数量
7modified_base.in_IGRmodified_baseC甲基化类型在基因间区上的数量
8m4C.in_genomem4C甲基化类型在基因组上的数量
9m4C.in_GRm4C甲基化类型在基因区域上的数量
10m4C.in_IGRm4C甲基化类型在基因间区上的数量
11m5C.in_genomem5C甲基化类型在基因组上的数量
12m5C.in_GRm5C甲基化类型在基因区域上的数量
13m5C.in_IGRm5C甲基化类型在基因间区上的数量

 

*.motifs_anno_counts.tsv-甲基化motif在各个数据库注释结果统计表

样品各motif位点上的基因在NR,SwissProt,KEGG,GO等各大数据库的注释情况统计。

制表符分割的文本文档,使用 excel 打开。

文件内容举例如下:

image-20230417095321934 文件内容说明如下:

列数列名说明
1sampleID样本名
2motif甲基化motif序列
3~15CAZY~T3SS不同数据库注释个数

 

*.motifs_anno.table.tsv-甲基化motif在各个数据库注释结果

样品各motif位点上的基因在NR,SwissProt,KEGG,GO等各大数据库的注释结果。

制表符分割的文本文档,使用 excel 打开。

文件内容举例如下:

image-20230417095459544 文件内容说明如下:

列数列名说明
1motif甲基化motif序列
2modified_type甲基化类型
3position甲基化染色体名
4site甲基化位置
5Gene_id基因名
6locus基因名在染色体位置
7~19CAZY~T3SS不同数据库注释结果

*.motifs.csv-甲基化 motif 的 CSV文件

制表符分割的文本文档,使用 excel 打开。

文件内容举例如下:

image-20230417101037596

文件内容说明如下:

列数列名说明
1motifString基转移酶识别的核苷酸motif序列
2centerPos修饰碱基所在的位置
3modificationType修饰类型,
4fraction修饰的motif占基因组中全部此motif的比例
5nDetected修饰的motif个数
6nGenome基因组中的此motif个数
7groupTag对motif分组进行构思的字符串。对于成对的motif,这是“<motifString1>/<motifString2>”,对于不成对的motif,这等于 motifString
8partnerMotifStringmotif成对主题的字符串(具有反向互补motif字符串的 motif)
9meanScore平均得分
10meanIpdRatio检测到的平均 IPD 比率
11meanCoverage平均覆盖度
12objectiveScore全部motif的总得分值

 

 

*.motifs.gff-甲基化 motif 的 gff 文件

GFF 文件,可用文本编辑器打开,或扩展名改为 xls 后用 excel 打开。

格式实例详细说明见【4 常用格式】中【4.1 GFF 格式】部分

*.un_modifications.distribution.xls-未甲基化 motif 在 GRs/IRGs 上的分布统计

未甲基化motif 类型在基因组上和基因间区上的数量。

制表符分割的文本文档,使用 excel 打开。

文件内容举例如下:

image-20230417094958327 文件内容说明如下:

列数列名说明
1sampleID样本名
2motifString未甲基化的甲基转移酶识别的核苷酸motif序列
3No. in genome未甲基化motif序列在基因组上的数量
4No. in GR(%)未甲基化motif序列在基因区域上的数量
5No. in IGR(%)未甲基化motif序列在基因间区上的数量

 

常用格式

GFF 格式

GFF 格式是 Sanger 研究所定义,是一种简单的、方便的对于 DNA、RNA 以及蛋白质序列的特征进行描述的一种数据格式,比如序 列的哪里到哪里是基因,已经成为序列注释的通用格式,比如基因组的基因预测,许多软件都支持输入或者输出 GFF 格式。目前格式定 义的最新版本是版本 3。

GFF 格式举例如下:

image-20230412211921723

文件格式说明见下表:

列数说明
1“seqid”序列的编号,编号的有效字符有[a-zA-Z0-9.:^x!+_?-]
2source”注释信息的来源,比如”Genescan”、”Genbank” 等,可以为空,为空用”.”点号代替
3“type”注释信息的类型,比如 Gene、cDNA、mRNA 等,或者是 SO 对应的编号
4“start”起始位置
5“end”终止位置
6“score”得分,数字,是注释信息可能性的说明,可以是序列相似性比对时的 E-values 值或者基因预测时的 P-values 值。”.”表示为空
7“strand”序列的方向, +表示正义链, -反义链 , ?表示未知
8“phase”仅对注释类型为 “CDS”有效,表示起始编码的位置,有效值为 0、1、2。
9“attributes”以多个键值对组成的注释信息描述,键与值之间用“=”,不同的键值用“;”隔开,一个键可以有多个值,不同值用“,”分割。注意如果描述中包括 tab 键以及“,=;”,要用 URL 转义规则进行转义,如 tab 键用 %09 代替。键是区分大小写的,以大写字母开头的键是预先定义好的,在后面可能被其他注释信息所调用

目录