基因组共线性是指在不同物种中存在相似的基因组结构和顺序,这是由于这些物种的共同祖先遗传了这些基因组特征。基因共线性分析是比较不同物种基因组结构和序列的方法之一。基因组共线性分析是研究不同物种基因组结构和演化历史的重要手段,其结果可以为我们理解生物进化和基因功能提供有力支持。
如无特殊说明,以下内容中的“*”代表目标物种的样品名
mummer/*
├── **.delta 【mummer结果文件】 ├──**.delta.filter【过滤delta 结果】 ├── **.delta.filter.coords【显示比对坐标结果】 ├── **.dot.png 【mummer点图】 └── *_*.systen.png【mummer线性图】
这是MUMmer软件输出的主要结果文件之一,它记录了两个序列之间的比对结果,包括最大匹配、重复序列以及每个序列的起始位置和长度等信息。该文件可以用于后续比对结果的可视化和分析。
第一行:展示了 query 和 reference 基因组文件的位置,如C1.fna,C2.fna ,这里隐去了慈航数据
第二行:表示比对时使用的模式,即 "NUCMER" (核酸)或 "PROMER"(氨基酸);
第三行:4 个词分别代表 参考基因组的 序列名,查询基因组的序列长度,参考基因组的 序列长度,查询基因组序列长度;
第四行:第一组 比对结果,指定两个对齐序列,后续每一组对齐都有这么一个 header,并描述对齐的坐标和一些错误信息;如果起始坐标大于结束坐标,则表明对齐是在反链上;前 4 个值分别表示 reference 中的起点和终点,以及 query 中的起点和终点;后 3 个值分别表示错误数(non-identities + indels),相似错误(non-positive match scores),终止密码子(NUCMER为0);
第五行始:每一个数字表示一个插入或确实,正值 query 相较于 reference 存在缺失,负值表示插入,0 表示该组 alignment 结束;数字坐标叠加表示,比如:上图中 query 第一个缺失的位置为 32,第二个缺失的位置为 32+27,第三个缺失的位置为 32+27+1,以此类推;
结果如上,只不过是过滤了一些比较短或者比较相似的结果。
.delta.filter.coords 文件是对 MUMmer 软件输出的 .delta 文件进行过滤和处理后得到的文件。这个文件以人类可读的格式显示匹配的坐标。
示例结果如下:
文件内容说明如下:
列数 | 列标题 | 说明 |
---|---|---|
1 | [S1] | 参考基因组匹配开始位置 |
2 | [E1] | 参考基因组匹配结束位置 |
3 | [S2] | 查询基因组匹配开始位置 |
4 | [E2] | 查询基因组匹配结束位置 |
5 | [LEN 1] | 参考基因组匹配长度 |
6 | [LEN 2] | 查询基因组匹配长度 |
7 | [% IDY] | 序列一致性 |
8 | [TAGS] | 序列标签 |
注意:结果可能不显示列标题。
*_*.dot.png中的蓝色点线对齐是反向互补匹配。红色点线为正向匹配。如果是完全相同基因组,红线点线为45度斜线无蓝色点。如下:
如果为基因组结构不同,则可以查看*_*.delta.filter.coords-显示比对坐标结果来看详细结果。
*_*.systen.png-mummer线性图根据显示比对坐标结果绘制。为mummer点图另一角度解读,示例如下:
图片上显示:ref基因组(参考基因组),qry基因组(查询基因组)名字和大小,最下面的横线代表参考基因组,上面的代表查询基因组,中间连线代表二者基因组对齐区域,也就是说参考基因组相同序列结构在查询基因组的位置。