甲基化流程结果说明结果简介 目录结构 格式说明*[motifs].cog.stat.txt-各motif在COG数据库分布统计结果表*_[motifs].COG.tsv各motif在COG数据库分布统计结果*_[motifs].motif.cog_cog_color.pdf-各motif在COG数据库分布统计结果图*_[motifs].motif.cog_cog_color.png-各motif-在COG数据库分布统计结果图*_[motifs].motif.cog_ggplot2_color.pdf-各motif在COG数据库分布统计结果图*[motifs].motif.cog_ggplot2_color.png-各motif在COG数据库分布统计结果图*.modifications.distribution.xls-甲基化 motif 在 GRs/IRGs 上的分布统计信息*.motifs_anno_counts.tsv-甲基化motif在各个数据库注释结果统计表*.motifs_anno.table.tsv-甲基化motif在各个数据库注释结果*.motifs.csv-甲基化 motif 的 CSV文件*.motifs.gff-甲基化 motif 的 gff 文件*.un_modifications.distribution.xls-未甲基化 motif 在 GRs/IRGs 上的分布统计常用格式GFF 格式
使用 SMRT 软件中的表观修饰模块包,对最终的基因组组装结果进行甲基化位点检测和 motif 的预测。能够预测到的修饰类 型包括 m6A,m4C 和 m5C,以及未知类型(modified_base)。
如无特殊说明,以下内容中的“*”代表目标物种的样品名.
methylation/ ├── COG 【各motif在COG数据库分布结果】 │ ├──*[motifs].cog.stat.txt【各motif在COG数据库分布统计结果表】 │ ├── *[motifs].COG.tsv【各motif在COG数据库分布统计结果】 │ ├── *[motifs].motif.cog_cog_color.pdf【各motif在COG数据库分布统计结果图】 │ ├── *[motifs].motif.cog_cog_color.png【各motif在COG数据库分布统计结果图】 │ ├── *[motifs].motif.cog_ggplot2_color.pdf【各motif在COG数据库分布统计结果图】 │ └── *[motifs].motif.cog_ggplot2_color.png【各motif在COG数据库分布统计结果图】 ├── *.modifications.distribution.xls【甲基化 motif 在 GRs/IRGs 上的分布统计信息】 ├── *.motifs_anno_counts.tsv【甲基化motif在各个数据库注释结果统计表】 ├── *.motifs_anno.table.tsv【甲基化motif在各个数据库注释结果】 ├── *.motifs.csv【甲基化 motif 的 gff 文件】 ├── *.motifs.gff【甲基化 motif 的 gff 文件】 └── *.un_modifications.distribution.xls【未甲基化 motif 在 GRs/IRGs 上的分布统计】
[motifs]为各对应的甲基化motif序列。
制表符分割的文本文档,使用 excel 打开。 文件内容对应于文件*_[motifs].COG.tsv。
文件内容举例如下:
文件内容说明如下:
行数 | 说明 |
---|---|
1 | COG分类字母 |
2 | 注释上的基因个数 |
各motif在COG数据库分布结果。[motifs]为各对应的甲基化motif序列。
制表符分割的文本文档,使用 excel 打开。
文件内容举例如下:
文件内容说明如下:
列数 | 列名 | 说明 |
---|---|---|
1 | locus_tag | 基因名 |
2 | COG | 注释上的COG结果 |
*[motifs].cog.stat.txt对应的pdf图片格式。
与 *_[motifs].motif.cog_cog_color.png内容一致。
PNG 格式,用图片浏览器打开。
对应*[motifs].cog.stat.txt文件。COG官方配色。
图片示例如下:
与 *[motifs].motif.cog_ggplot2_color.png内容一致。
PNG 格式,用图片浏览器打开。
对应*_[motifs].motif.cog_cog_color.png文件,配色不同。
图片示例如下:
甲基化motif 类型在基因组上和基因间区上的数量。
制表符分割的文本文档,使用 excel 打开。
文件内容举例如下:
文件内容说明如下:
列数 | 列名 | 说明 |
---|---|---|
1 | sampleID | 样本名 |
2 | m6A.in_genome | m4C甲基化类型在基因组上的数量 |
3 | m6A.in_GR | m6A甲基化类型在基因区域上的数量 |
4 | m6A.in_IGR | m6A甲基化类型在基因间区上的数量 |
5 | modified_base.in_genome | modified_base甲基化类型在基因组上的数量 |
6 | modified_base.in_GR | modified_base甲基化类型在基因区域上的数量 |
7 | modified_base.in_IGR | modified_baseC甲基化类型在基因间区上的数量 |
8 | m4C.in_genome | m4C甲基化类型在基因组上的数量 |
9 | m4C.in_GR | m4C甲基化类型在基因区域上的数量 |
10 | m4C.in_IGR | m4C甲基化类型在基因间区上的数量 |
11 | m5C.in_genome | m5C甲基化类型在基因组上的数量 |
12 | m5C.in_GR | m5C甲基化类型在基因区域上的数量 |
13 | m5C.in_IGR | m5C甲基化类型在基因间区上的数量 |
样品各motif位点上的基因在NR,SwissProt,KEGG,GO等各大数据库的注释情况统计。
制表符分割的文本文档,使用 excel 打开。
文件内容举例如下:
文件内容说明如下:
列数 | 列名 | 说明 |
---|---|---|
1 | sampleID | 样本名 |
2 | motif | 甲基化motif序列 |
3~15 | CAZY~T3SS | 不同数据库注释个数 |
样品各motif位点上的基因在NR,SwissProt,KEGG,GO等各大数据库的注释结果。
制表符分割的文本文档,使用 excel 打开。
文件内容举例如下:
文件内容说明如下:
列数 | 列名 | 说明 |
---|---|---|
1 | motif | 甲基化motif序列 |
2 | modified_type | 甲基化类型 |
3 | position | 甲基化染色体名 |
4 | site | 甲基化位置 |
5 | Gene_id | 基因名 |
6 | locus | 基因名在染色体位置 |
7~19 | CAZY~T3SS | 不同数据库注释结果 |
制表符分割的文本文档,使用 excel 打开。
文件内容举例如下:
文件内容说明如下:
列数 | 列名 | 说明 |
---|---|---|
1 | motifString | 基转移酶识别的核苷酸motif序列 |
2 | centerPos | 修饰碱基所在的位置 |
3 | modificationType | 修饰类型, |
4 | fraction | 修饰的motif占基因组中全部此motif的比例 |
5 | nDetected | 修饰的motif个数 |
6 | nGenome | 基因组中的此motif个数 |
7 | groupTag | 对motif分组进行构思的字符串。对于成对的motif,这是“<motifString1>/<motifString2>”,对于不成对的motif,这等于 motifString |
8 | partnerMotifString | motif成对主题的字符串(具有反向互补motif字符串的 motif) |
9 | meanScore | 平均得分 |
10 | meanIpdRatio | 检测到的平均 IPD 比率 |
11 | meanCoverage | 平均覆盖度 |
12 | objectiveScore | 全部motif的总得分值 |
GFF 文件,可用文本编辑器打开,或扩展名改为 xls 后用 excel 打开。
格式实例详细说明见【4 常用格式】中【4.1 GFF 格式】部分
未甲基化motif 类型在基因组上和基因间区上的数量。
制表符分割的文本文档,使用 excel 打开。
文件内容举例如下:
文件内容说明如下:
列数 | 列名 | 说明 |
---|---|---|
1 | sampleID | 样本名 |
2 | motifString | 未甲基化的甲基转移酶识别的核苷酸motif序列 |
3 | No. in genome | 未甲基化motif序列在基因组上的数量 |
4 | No. in GR(%) | 未甲基化motif序列在基因区域上的数量 |
5 | No. in IGR(%) | 未甲基化motif序列在基因间区上的数量 |
GFF 格式是 Sanger 研究所定义,是一种简单的、方便的对于 DNA、RNA 以及蛋白质序列的特征进行描述的一种数据格式,比如序 列的哪里到哪里是基因,已经成为序列注释的通用格式,比如基因组的基因预测,许多软件都支持输入或者输出 GFF 格式。目前格式定 义的最新版本是版本 3。
GFF 格式举例如下:
文件格式说明见下表:
列数 | 说明 |
---|---|
1 | “seqid”序列的编号,编号的有效字符有[a-zA-Z0-9.:^x!+_?-] |
2 | source”注释信息的来源,比如”Genescan”、”Genbank” 等,可以为空,为空用”.”点号代替 |
3 | “type”注释信息的类型,比如 Gene、cDNA、mRNA 等,或者是 SO 对应的编号 |
4 | “start”起始位置 |
5 | “end”终止位置 |
6 | “score”得分,数字,是注释信息可能性的说明,可以是序列相似性比对时的 E-values 值或者基因预测时的 P-values 值。”.”表示为空 |
7 | “strand”序列的方向, +表示正义链, -反义链 , ?表示未知 |
8 | “phase”仅对注释类型为 “CDS”有效,表示起始编码的位置,有效值为 0、1、2。 |
9 | “attributes”以多个键值对组成的注释信息描述,键与值之间用“=”,不同的键值用“;”隔开,一个键可以有多个值,不同值用“,”分割。注意如果描述中包括 tab 键以及“,=;”,要用 URL 转义规则进行转义,如 tab 键用 %09 代替。键是区分大小写的,以大写字母开头的键是预先定义好的,在后面可能被其他注释信息所调用 |