crispris 结果注释结果说明结果简介 目录结构格式说明 Chr_1.gff -CRISPR基因序列文件,gff格式*_crisprcas.gff3-CRISPR基因序列文件,gff格式*.CRISPR_information.xls-CRISPR基因结果文件*.CRISPR_sequence.xls-包含所有检测到的CRISPR基因序列文件,fasta格式*.CRISPR_stat.xls-CRISPR 预测结果统计表rawCas.fna-包含所有检测到的Cas基因序列文件,fasta格式rawCRISPRs.fna-包含所有检测到的CRISPRss基因序列文件,fasta格式result.json-包含检测到的CRISPR阵列和Cas基因的主要信息,JSON文件Visualization-可视化文件夹常用格式 GFF 格式 FASTA 格式
CRISPR 簇由一段不连续的同向重复序列(direct repeat sequences, DR)和插入其中的间隔序列(spacers)组成,重复序列之间是一 些约 30bp 的"spacer DNA"。在原核生物中,CRISPR 起到免疫系统的作用,对外来的质粒和噬菌体序列具有抵抗作用。CRISPR 能识别 并使入侵的功能元件沉默。
使用CRISPRCasFinder对基因组进行 CRISPR 预测。
如无特殊说明,以下内容中的“*”代表目标物种的样品名。
CRISPRCasFinder/ ├── Chr_1.gff 【CRISPR基因序列文件,gff格式,若结果无CRISPR,则无此文件】 ├── *_crisprcas.gff3【CRISPR基因序列文件,gff格式,若结果无CRISPRcas,则无此文件】 ├──*.CRISPR_information.xls【CRISPR基因结果文件】 ├──*.CRISPR_sequence.xls【包含所有检测到的CRISPR基因序列文件,fasta格式,若结果无CRISPR,则无此文件】 ├──*.CRISPR_stat.xls【CRISPR 预测结果统计表】 ├── rawCas.fna【包含所有检测到的Cas基因序列文件,fasta格式,若结果无cas,则无此文件】 ├── rawCRISPRs.fna【包含所有检测到的CRISPRss基因序列文件,fasta格式,若结果无CRISPR,则无此文件】 ├── result.json【包含检测到的CRISPR阵列和Cas基因的主要信息,JSON文件】 └── Visualization【可视化文件夹】 ├── crispr.css【可视化文件夹css文件】 └── index.html【网页文件】
GFF 文件,可用文本编辑器打开,或扩展名改为 xls 后用 excel 打开。 与*_crisprcas.gff3相对应,只有最后一列有所不同。
格式实例详细说明见【4 常用格式】中【4.1 GFF 格式】部分
GFF 文件,可用文本编辑器打开,或扩展名改为 xls 后用 excel 打开。
格式实例详细说明见【4 常用格式】中【4.1 GFF 格式】部分
制表符分割的文本文档,使用 excel 打开。
文件内容举例如下:
文件内容说明如下:
列数 | 列标题 | 说明 |
---|---|---|
1 | sampleID | 样品名 |
2 | CRISPRID | CRISPR编号 |
3 | SeqID | 序列号 |
4 | Start | 开始坐标 |
5 | End | 结束坐标 |
6 | CRISPR Length(bp) | CRISPR长度 |
7 | DR Num | DR数量 |
8 | DR Average Len(bp) | DR 长度 |
9 | Spacer Num | Spacer数量 |
10 | Spacer Average Len(bp) | Spacer长度 |
制表符分割的文本文档,使用 excel 打开。
文件内容举例如下:
文件内容说明如下:
列数 | 列标题 | 说明 |
---|---|---|
1 | CRISPRID | CRISPR编号 |
2 | Type | 类型 |
3 | Start | 开始坐标 |
4 | End | 结束坐标 |
5 | Sequence | 序列 |
制表符分割的文本文档,使用 excel 打开。
文件内容举例如下:
文件内容说明如下:
列数 | 列标题 | 说明 |
---|---|---|
1 | sampleID | 样品名 |
2 | CRISPR-Cas_Num | 数量 |
3 | Total_length(bp) | 总长度 |
4 | Average_length(bp) | 平均长度 |
FASTA 文件,可用文本编辑器打开。
格式实例详细说明见【4 常用格式】中【4.2 FASTA 格式】部分
FASTA 文件,可用文本编辑器打开。
格式实例详细说明见【4 常用格式】中【4.2 FASTA 格式】部分
GFF 格式是 Sanger 研究所定义,是一种简单的、方便的对于 DNA、RNA 以及蛋白质序列的特征进行描述的一种数据格式,比如序 列的哪里到哪里是基因,已经成为序列注释的通用格式,比如基因组的基因预测,许多软件都支持输入或者输出 GFF 格式。目前格式定 义的最新版本是版本 3。
GFF 格式举例如下:
文件格式说明见下表:
列数 | 说明 |
---|---|
1 | “seqid”序列的编号,编号的有效字符有[a-zA-Z0-9.:^x!+_?-] |
2 | source”注释信息的来源,比如”Genescan”、”Genbank” 等,可以为空,为空用”.”点号代替 |
3 | “type”注释信息的类型,比如 Gene、cDNA、mRNA 等,或者是 SO 对应的编号 |
4 | “start”起始位置 |
5 | “end”终止位置 |
6 | “score”得分,数字,是注释信息可能性的说明,可以是序列相似性比对时的 E-values 值或者基因预测时的 P-values 值。”.”表示为空 |
7 | “strand”序列的方向, +表示正义链, -反义链 , ?表示未知 |
8 | “phase”仅对注释类型为 “CDS”有效,表示起始编码的位置,有效值为 0、1、2。 |
9 | “attributes”以多个键值对组成的注释信息描述,键与值之间用“=”,不同的键值用“;”隔开,一个键可以有多个值,不同值用“,”分割。注意如果描述中包括 tab 键以及“,=;”,要用 URL 转义规则进行转义,如 tab 键用 %09 代替。键是区分大小写的,以大写字母开头的键是预先定义好的,在后面可能被其他注释信息所调用 |
FASTA 格式(又称为 Pearson 格式),是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码,且允许在序列前添加序列名及注释。序列文件的第一行是由大于号">"或分号";"打头的任意文字说明(习惯常用">"作为 起始),用于序列标记。从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可,而氨基 3 酸常用大写字母。如:
>Prophage_1_Scaffold1_1405541_1494989 TGCCAAAAGGATCAGGCAAAGTATTATCGCAAAACAAAAAAGCAAACCATGATTACTTTATAGAAGAAACCTATGAAACAGGCATCG TGCTGCAGGGAACGGAGATTAAGTCCATCCGC