crispris 结果注释结果说明

结果简介

CRISPR 簇由一段不连续的同向重复序列(direct repeat sequences, DR)和插入其中的间隔序列(spacers)组成,重复序列之间是一 些约 30bp 的"spacer DNA"。在原核生物中,CRISPR 起到免疫系统的作用,对外来的质粒和噬菌体序列具有抵抗作用。CRISPR 能识别 并使入侵的功能元件沉默。

使用CRISPRCasFinder对基因组进行 CRISPR 预测。

如无特殊说明,以下内容中的“*”代表目标物种的样品名。

目录结构

CRISPRCasFinder/ ├── Chr_1.gff 【CRISPR基因序列文件,gff格式,若结果无CRISPR,则无此文件】 ├── *_crisprcas.gff3【CRISPR基因序列文件,gff格式,若结果无CRISPRcas,则无此文件】 ├──*.CRISPR_information.xls【CRISPR基因结果文件】 ├──*.CRISPR_sequence.xls【包含所有检测到的CRISPR基因序列文件,fasta格式,若结果无CRISPR,则无此文件】 ├──*.CRISPR_stat.xls【CRISPR 预测结果统计表】 ├── rawCas.fna【包含所有检测到的Cas基因序列文件,fasta格式,若结果无cas,则无此文件】 ├── rawCRISPRs.fna【包含所有检测到的CRISPRss基因序列文件,fasta格式,若结果无CRISPR,则无此文件】 ├── result.json【包含检测到的CRISPR阵列和Cas基因的主要信息,JSON文件】 └── Visualization【可视化文件夹】 ├── crispr.css【可视化文件夹css文件】 └── index.html【网页文件】

格式说明

Chr_1.gff -CRISPR基因序列文件,gff格式

GFF 文件,可用文本编辑器打开,或扩展名改为 xls 后用 excel 打开。 与*_crisprcas.gff3相对应,只有最后一列有所不同。

格式实例详细说明见【4 常用格式】中【4.1 GFF 格式】部分

*_crisprcas.gff3-CRISPR基因序列文件,gff格式

GFF 文件,可用文本编辑器打开,或扩展名改为 xls 后用 excel 打开。

格式实例详细说明见【4 常用格式】中【4.1 GFF 格式】部分

*.CRISPR_information.xls-CRISPR基因结果文件

制表符分割的文本文档,使用 excel 打开。

文件内容举例如下:

image-20230412231217619

文件内容说明如下:

列数列标题说明
1sampleID样品名
2CRISPRIDCRISPR编号
3SeqID序列号
4Start开始坐标
5End结束坐标
6CRISPR Length(bp)CRISPR长度
7DR NumDR数量
8DR Average Len(bp)DR 长度
9Spacer NumSpacer数量
10Spacer Average Len(bp)Spacer长度

*.CRISPR_sequence.xls-包含所有检测到的CRISPR基因序列文件,fasta格式

制表符分割的文本文档,使用 excel 打开。

文件内容举例如下:

image-20230412234348431

文件内容说明如下:

列数列标题说明
1CRISPRIDCRISPR编号
2Type类型
3Start开始坐标
4End结束坐标
5Sequence序列

*.CRISPR_stat.xls-CRISPR 预测结果统计表

制表符分割的文本文档,使用 excel 打开。

文件内容举例如下:

image-20230412234913420

文件内容说明如下:

列数列标题说明
1sampleID样品名
2CRISPR-Cas_Num数量
3Total_length(bp)总长度
4Average_length(bp)平均长度

rawCas.fna-包含所有检测到的Cas基因序列文件,fasta格式

FASTA 文件,可用文本编辑器打开。

格式实例详细说明见【4 常用格式】中【4.2 FASTA 格式】部分

rawCRISPRs.fna-包含所有检测到的CRISPRss基因序列文件,fasta格式

FASTA 文件,可用文本编辑器打开。

格式实例详细说明见【4 常用格式】中【4.2 FASTA 格式】部分

result.json-包含检测到的CRISPR阵列和Cas基因的主要信息,JSON文件

Visualization-可视化文件夹

常用格式

GFF 格式

GFF 格式是 Sanger 研究所定义,是一种简单的、方便的对于 DNA、RNA 以及蛋白质序列的特征进行描述的一种数据格式,比如序 列的哪里到哪里是基因,已经成为序列注释的通用格式,比如基因组的基因预测,许多软件都支持输入或者输出 GFF 格式。目前格式定 义的最新版本是版本 3。

GFF 格式举例如下:

image-20230412211921723

文件格式说明见下表:

列数说明
1“seqid”序列的编号,编号的有效字符有[a-zA-Z0-9.:^x!+_?-]
2source”注释信息的来源,比如”Genescan”、”Genbank” 等,可以为空,为空用”.”点号代替
3“type”注释信息的类型,比如 Gene、cDNA、mRNA 等,或者是 SO 对应的编号
4“start”起始位置
5“end”终止位置
6“score”得分,数字,是注释信息可能性的说明,可以是序列相似性比对时的 E-values 值或者基因预测时的 P-values 值。”.”表示为空
7“strand”序列的方向, +表示正义链, -反义链 , ?表示未知
8“phase”仅对注释类型为 “CDS”有效,表示起始编码的位置,有效值为 0、1、2。
9“attributes”以多个键值对组成的注释信息描述,键与值之间用“=”,不同的键值用“;”隔开,一个键可以有多个值,不同值用“,”分割。注意如果描述中包括 tab 键以及“,=;”,要用 URL 转义规则进行转义,如 tab 键用 %09 代替。键是区分大小写的,以大写字母开头的键是预先定义好的,在后面可能被其他注释信息所调用

FASTA 格式

FASTA 格式(又称为 Pearson 格式),是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码,且允许在序列前添加序列名及注释。序列文件的第一行是由大于号">"或分号";"打头的任意文字说明(习惯常用">"作为 起始),用于序列标记。从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可,而氨基 3 酸常用大写字母。如:

>Prophage_1_Scaffold1_1405541_1494989 TGCCAAAAGGATCAGGCAAAGTATTATCGCAAAACAAAAAAGCAAACCATGATTACTTTATAGAAGAAACCTATGAAACAGGCATCG TGCTGCAGGGAACGGAGATTAAGTCCATCCGC

目录