真菌基因组研究,是通过基因组测序和组装获得真菌全基因组序列,并对其进行结构和功能研究的方法。 真菌基因组测序为真菌的研究提供强有力的支撑,可用于预测真菌的重要基因和蛋白以了解其功能和可能机制。
真菌精细图分析对三代测序数据和二代测序数据进行组装,获得真菌全基因组序列,并使用基因组组分分析、 基因功能分析、比较基因组分析、群体进化分析和甲基化分析等分析方法,对真菌基因组相关信息进行全面、详尽地了解。
(1)DNA的提取
采用SDS或STE的方法对样本的基因组DNA进行提取,之后利用琼脂糖凝胶电泳检测DNA的纯度和完整性,利用Qubit进行定量。
(2)Pacbio平台建库及库检
采用SMRT bell TM Template kit(version 1.0)试剂盒构建20K SMRT Bell文库,将经电泳检测合格的DNA样品用Covaris g-TUBE打断成构建文库所需大小的目的片段,经DNA损伤修复及末端修复,使用DNA黏合酶将发卡型接头连接在DNA片段两端,并使用AMpure PB磁珠对DNA片段进行纯化,使用BluePipin片段筛选特定大小的片段,使用AMpure PB磁珠对SMRT Bell文库进行浓度筛选,随后修复DNA损伤,再次使用AMpure PB磁珠对SMRT Bell文库纯化,将构建好的文库经Qubit浓度定量,并利用Agilent 2100检测插入片段大小,最后用PacBio平台进行测序。
(3)Illumina平台建库及库检
经电泳检测合格的DNA样品用Covaris超声波破碎仪随机打断成长度约为350bp的片段。处理完成后的DNA片段,使用NEBNext®Ultra™ DNA Library Prep Kitfor Illumina(NEB, USA)试剂盒,经末端修复、加A尾、加测序接头、纯化、PCR扩增等步骤完成整个文库制备。
文库构建完成后,先使用Qubit 2.0进行初步定量,稀释文库至2ng/ul,随后使用Agilent 2100对文库的插入片段进行检测,insert size符合预期后,使用Q-PCR方法对文库的有效浓度进行准确定量,以保证文库质量。
库检合格后,把不同文库按照有效浓度及目标下机数据量进行PacBio Sequel和Illumina NovaSeq PE150测序。
信息分析分以下几个步骤:
1 原始下机数据处理:此步骤过滤测序质量值低的reads,保留高质量reads,过滤后的数据称为Clean Data;
2 样品组装:进行基因组组装,得到能反映样品基因组基本情况的序列文件,并对组装结果进行评价;
3 基因组组分分析:组装完成后,分析样品基因组的成分,包括编码基因、非编码RNA、重复序列等基因组成分的预测;
4 基因功能分析:针对编码基因序列进行不同数据库的功能注释,包括常用的KEGG、KOG数据库、针对致病性的数据库;
5 比较基因组分析:此步骤从基因组、基因两层面分别比较样品与参考基因组的差异,包括共线性分析、SNP统计与注释、InDel统计与注释、SV统计与注释;
6 群体进化分析:此步骤包括共有基因及特有基因、基因家族分析和群体进化分析等内容;
7 甲基化分析:此步骤对最终的基因组组装结果进行甲基化位点检测和可能的甲基化转移酶识别的核苷酸基序(motif)的预测,包括表观修饰识别、甲基化motif及未甲基化motif在GR/IGR上的分布统计、motif基因注释、COG注释分布图、甲基化圈图等内容。
customer_files/01reads_info/ ├── 01.01NGS_reads_info │ ├── ErrorRate.[样本].svg [各样本二代测序数据reads错误率分布图] │ ├── GCContentDistribution_1.[样本].svg [各样本二代测序数据reads碱基含量分布图] │ ├── QualityDistribution.[样本].svg [各样本二代测序数据reads测序质量分布图] │ └── [样本].svg [各样本二代测序数据reads数据过滤统计图] └── 01.02TGS_reads_info ├── [样本].reads_length.svg [各样本reads长度分布图] └── read_length_table.txt [所有样本reads长度信息汇总表]
真菌精细图测序数据包含二代测序数据和三代测序数据,以下内容分布对二代测序数据和三代测序数据概况进行展示。
测序获得的原始数据中包含少量带有测序接头或测序质量较低的reads,为保证数据分 析的质量及可靠性,需要对原始数据进行过滤。本分析使用Trimmomatic[1]软件对 测序数据进行过滤,过滤前后各部分reads所占比例均在饼图中呈现。本项目测序数 据过滤情况统计图见结果文件 customer_files/01Trimmomatic。下图为其中一个样本作为示例:
注:
Both Surviving:该部分为过滤后read1和read2均被保留的数据
Forward Only Surviving:该部分为仅在read1中被保留的数据
Reverse Only Surviving:该部分为仅在read2中被保留的数据
Dropped:该部分为因接头或数据质量等原因被丢弃的数据
测序过程本身存在机器错误的可能性,测序错误率分布检查可以反映测序数据的质量, 序列信息中每个碱基的测序质量值保存在fastq文件中。如果测序错误率用e表示, Illumina的碱基质量值用Qphred表示,则有:Qphred=-10log10(e)。 Illumina Casava 1.8版本碱基识别与Phred分值之间的简明对应关系见下表。
表3.1 Illumina Casava 1.8版本碱基识别与Phred分值之间的简明对应关系
当前RNA-seq测序技术,测序错误率分布存在以下两个特征。
测序错误率随着测序序列(Sequenced Reads)长度的增加而升高。 这是由测序过程中化学试剂的消耗导致的,为Illumina高通量测序平台所具有的特征。
前6个碱基具有较高的测序错误率,此长度恰好为RNA-seq建库过程中反转录所需的随机引物长度。 前6个碱基测序错误率较高是因为随机引物和RNA模版的不完全结合。 此特征为illumina高通量测序平台的共有特征。
在该部分分析中,若样品80%的测序序列错误率在0.1%以下即为合格。 本项目测序数据的错误分布图见结果文件 customer_files/02QC/02.01ErrorRate/。 下图为其中一个样本作为示例:
注:
pos:横坐标为reads碱基位置,其中从0-150为read1碱基位置,151-300为read2碱基位置。
errorRatio:纵坐标为碱基错误率。
核苷酸序列中鸟嘌呤(G)和胞嘧啶(C)所占的比例称为GC含量。 GC含量在物种间存在一定特异性,但由于反转录过程中所使用的6bp随机引物, 会引起前几位碱基在核苷酸组成上有一定偏好性,产生正常波动,随后则趋于稳定。 对于NEB普通建库方法,由于序列的随机性打断和双链互补等原则, 理论上测序读段在每个位置的GC及AT含量应分别相等,且在整个测序过程基本稳定不变, 呈水平线。而对于链特异性建库而言,由于只保留了单链信息, 可能会出现AT分离或GC分离现象。
本项目各个样本的GC含量分布见结果文件 /customer_files/02QC/02.02GCContent。 下图为其中一个样本作为示例:
注:
base position:横坐标为reads碱基位置;
base count:纵坐标为该碱基所占比例。
测序数据的质量主要分布在 Q30(≥80%)以上,这样才能保证后续分析的正常进行, 根据测序技术的特点,测序片段末端的碱基质量一般会比前端的低。
本项目各个样本测序数据质量分布见结果文件 customer_files/02QC/02.03QualityDistribution。 下图为其中一个样本作为示例:
注:
pos:横坐标为碱基位置;
quality:碱基的测序质量值。
测序得到的原始数据会存在一定比例的低质量数据,为了保证后续信息分析结果的准确可靠,首先要对原始数据进行过滤处理,得到有效数据。详细的质控统计信息如下表:
samples | number of reads | number of bases | mean read length | N50 |
---|---|---|---|---|
sallet_1 | 150000 | 1792442690 | 11949.617933333333 | 11757 |
sallet_2 | 150000 | 1811985479 | 12079.903193333334 | 17590 |
sallet_3 | 150000 | 1807866049 | 12052.440326666667 | 12987 |
sallet_4 | 150000 | 1813879445 | 12092.529633333334 | 6914 |
sallet_5 | 150000 | 1797219380 | 11981.462533333333 | 13226 |
sallet_6 | 150000 | 1789891908 | 11932.61272 | 11005 |
说明: samples:样本名称; number of reads:测序数据reads数量; number of bases:测序数据碱基数量; mean read length:测序数据reads平均长度; N50:N50长度。
过滤后得到的有效数据的测序读长分布情况如下图显示:
说明: 横坐标read length为read长度,纵坐标read count为对应read长度的read数量。
customer_files/02assemble/ ├── 02.01Initial_assembly/ │ └── [物种].[样本].contigs.fasta [各样本初步组装contig序列] ├── 02.02GC_depth_plot/ │ └── [物种].[样本].GC_depth_count.svg [各样本GC_depth图] └── 02.03purged_genome/ ├── [物种].[样本].purged.fa [各样本优化后序列] └── purged_seq_info_count.txt [优化后序列信息汇总]
从各样品质控后的有效数据出发,使用canu v2.2软件对reads进行基因组组装,得到能反映样品基因组基本情况的初步的组装结果。
sample ID | Contigs | Max_Length(bp) | N50_Length(bp) | Total_length(bp) |
---|---|---|---|---|
sallet_1 | 31 | 5345221 | 2876665 | 34428771 |
sallet_2 | 32 | 5273289 | 2772635 | 36626721 |
sallet_3 | 32 | 5371789 | 2788835 | 38838744 |
sallet_4 | 30 | 5332739 | 2999835 | 36664632 |
sallet_5 | 31 | 5474477 | 2777645 | 37772531 |
sallet_6 | 33 | 5537727 | 2225365 | 38887312 |
说明: sample ID:样本名称; Contigs:样本组装contig数量; Max_Length(bp):样本最长contig长度; N50_Length(bp):样本contig N50长度; Total_length(bp):样本组装contig总长度。
在获得初步组装结果后,使用pbmm2软件将reads比对到组装好的序列上,然后使用samtools软件对reads测序深度进行统计;同时对组装序列的GC含量进行统计,总结组装序列的GC偏向性和重复序列情况,然后使用R脚本对GC含量和测序深度进行可视化展示。
分析结果如下图所示:
说明:
横坐标GC参与组装的read的GC含量,纵坐标depth为参与组装的read的评价测序深度。上方的柱状图为GC含量对应的柱状图,右侧柱状图为测序深度对应的柱状图。
在获得初步组装结果后,分别使用pilon软件和gcpp软件进行二代测序矫正和三代测序自我矫正。然后使用Purge_dups软件对矫正后序列进行去冗余,从而获得优化后组装序列,即为最终的组装结果。对最终的组装结果统计如下:
sample ID | Contigs | Max_Length(bp) | N50_Length(bp) | Total_length(bp) |
---|---|---|---|---|
sallet_1 | 17 | 5251536 | 2762663 | 36266321 |
sallet_2 | 16 | 5626263 | 2766251 | 32166732 |
sallet_3 | 18 | 5772636 | 2672783 | 33777382 |
sallet_4 | 19 | 5626531 | 2888831 | 38872731 |
sallet_5 | 16 | 5665212 | 2673712 | 33377612 |
sallet_6 | 17 | 5736641 | 2863721 | 32737841 |
说明: sample ID:样本名称; Contigs:样本组装contig数量; Max_Length(bp):样本最长contig长度; N50_Length(bp):样本contig N50长度; Total_length(bp):样本contig总长度。
customer_files/03genomeComponent/ ├── 03.01gene_predict/ │ ├── [物种].[样本].augustus.protein.fa [各样本预测基因对应蛋白质序列] │ ├── [物种].[样本].augustus.gff [各样本预测基因gff文件] │ ├── [物种].[样本].coding_gene_length.svg [各样本预测基因长度分布图] │ ├── [物种].[样本]_coding_gene_length.txt [各样本预测基因长度信息] │ └── coding_gene_info_count.txt [各样本预测基因长度汇总信息] ├── 03.02repeat_seq/ │ ├── tandem_repeat_count.svg [串联重复统计图] │ ├── tandem_repeat_count.txt [串联重复统计表] │ └── [物种].[样本].interspersed_repeat_count.txt [各样本散在重复序列统计表] └── 03.03ncRNA_predict/ ├── ncRNA_count.txt [ncRNA统计表] ├── [物种].[样本].purged.tblout.dealed.table [ncRNA预测结果] ├── [物种].[样本].purged.tRNA.out [tRNA预测结果] └── [物种].[样本].purged.tRNA.structure [tRNA预测的结构文件]
微生物基因组包含的功能区域非常丰富,除编码基因区域,更有非编码区域实现转录调控、转录后调控、翻译调控、表观遗传调控等功能,部分功能区域还与物种进化的多样性存在关系。 通过多种方法,对编码基因、重复序列、非编码RNA等进行预测,获取目标基因组的组成情况。
根据获得的组装序列,我们使用Augustus软件对真菌样本的编码基因进行预测。该软件基于HMM(隐马尔科夫模型)和贝叶斯理论,根据序列信息对其中的编码基因进行预测。基因预测结果统计信息如下表所示:
sample ID | Genome size | Gene number | Gene total length | Gene average length | Gene length / Genome |
---|---|---|---|---|---|
sallet_1 | 33897508 | 12626 | 20626532 | 1682.23 | 0.608497002 |
sallet_2 | 34332212 | 11233 | 22177631 | 1667.76 | 0.645971515 |
sallet_3 | 33773642 | 11212 | 26553222 | 1666.21 | 0.786211389 |
sallet_4 | 33827361 | 12312 | 24343221 | 1677.22 | 0.7196311 |
sallet_5 | 33737642 | 14321 | 21223426 | 1683.95 | 0.629072595 |
sallet_6 | 33456212 | 12121 | 24421222 | 1624.25 | 0.729945817 |
说明: Genome size:全基因组总长度; Gene number:预测到的编码基因个数; Gene total length:所有编码基因的总长度; Gene average length:编码基因的平均长度; Gene length / Genome:编码区总长度占全基因组的比例。
绘制基因长度统计图如下:
说明:
横坐标gene length为预测的基因长度区间,纵坐标gene number为对应长度区间内的基因数量。
重复序列是基因组中不同位置出现的相同或互补性片段,是基因调控网络的组成成分。 根据重复的序列在基因组上的分布,分为散在重复序列、串联重复序列。
散在重复序列又分短分散重复序列(Short interspersed nuclear elements,SINEs)以及长散在重复序列(Longinterspersed nuclear elements,LINEs),其中长散在重复序列常具有转座活性。串联重复序列(Tandem Repeat,TR),即相邻的、重复两次或多次特定核酸序列模式的重复序列。分为Minisatellite DNA(小卫星DNA)和Microsatellite DNA(微卫星DNA)。串联重复单元具有种属组成特异性,可作为物种的遗传性状,进行进化关系的研究。
通过RepeatMasker软件进行散在重复序列预测,TRF(Tandem Repeats Finder)搜寻DNA序列中的串联重复序列。
预测结果如下表所示:
samples | Minisatellite DNA number | Minisatellite DNA length range | Minisatellite DNA totle length | Minisatellite DNA in genome(%) | Microsatellite DNA number | Microsatellite DNA length range | Microsatellite DNA totle length | Microsatellite DNA in genome(%) | other tandem repeat number | other tandem repeat length range | other tandem repeat totle length | other tandem repeat in genome(%) |
---|---|---|---|---|---|---|---|---|---|---|---|---|
sallet_1 | 1045 | 29_211 | 64660 | 0.00552517 | 236 | 2_221 | 12442 | 0.000344241 | 568 | 2043_87230 | 222163 | 0.00021113 |
sallet_2 | 1036 | 21_364 | 64542 | 0.00215551 | 245 | 2_234 | 12032 | 0.000355222 | 518 | 2140_87031 | 226331 | 0.00033214 |
sallet_3 | 1023 | 22_444 | 65552 | 0.00190721 | 221 | 2_322 | 12212 | 0.000365321 | 535 | 2021_87020 | 226632 | 0.00065321 |
sallet_4 | 1025 | 26_321 | 67663 | 0.00192121 | 235 | 2_222 | 12332 | 0.000213451 | 558 | 2022_87010 | 227631 | 0.00035762 |
sallet_5 | 1036 | 26_432 | 64213 | 0.00177632 | 312 | 2_342 | 12432 | 0.000322455 | 521 | 2034_87110 | 228732 | 0.00021763 |
sallet_6 | 1047 | 29_421 | 64221 | 0.00214511 | 332 | 2_231 | 12541 | 0.000213456 | 451 | 2040_87030 | 229221 | 0.00035521 |
说明: samples:样本名称; Minisatellite DNA number:Minisatellite DNA数量; Minisatellite DNA length range:Minisatellite DNA长度范围; Minisatellite DNA totle length:Minisatellite DNA总长度; Minisatellite DNA in genome(%):Minisatellite DNA长度占基因组长度百分比; Microsatellite DNA number:Microsatellite DNA数量; Microsatellite DNA length range:Microsatellite DNA长度范围; Microsatellite DNA totle length:Microsatellite DNA总长度; Microsatellite DNA in genome(%):Microsatellite DNA长度占基因组长度的百分比; other tandem repeat number:other tandem repeat数量; other tandem repeat length range:other tandem repeat长度范围; other tandem repeat totle length:other tandem repeat总长度; other tandem repeat in genome(%):other tandem repeat长度占基因组长度的百分比。
重复序列统计可视化如下:
说明:
横坐标samples为不同的样本,纵坐标count为各个样本中各类重复序列的数量。
非编码RNA(ncRNA)是一类执行多种生物学功能的RNA分子,其本身并不携带翻译为蛋白质的信息,直接在RNA水平对生命活动发挥作用。对于微生物而言,研究较为普遍的包括sRNA、rRNA、tRNA。
tRNA:转运RNA(Transfer RNA),又称传送核糖核酸、转移核糖核酸,通常简称为tRNA,是一种由76-90个核苷酸所组成的RNA,其3'端可以在氨酰-tRNA合成酶催化之下,接附特定种类的氨基酸。转译的过程中,tRNA可借由自身的反密码子识别mRNA上的密码子,将该密码子对应的氨基酸转运至核糖体合成中的多肽链上。本分析中通过tRNAscan-SE软件对tRNA进行预测。
rRNA:即核糖体RNA,rRNA在相邻物种中高度保守。rRNA的预测方法有两种,一是通过与近缘参考序列的rRNA库比对找到rRNA,二是用rRNAmmer软件预测rRNA。
sRNA:小RNA,首先进行Rfam database比对注释,接着用cmsearch程序(参数默认)确定最终的sRNA。
snRNA:(small nuclearRNA,小核RNA),它是真核生物转录后加工过程中RNA剪接体(spilceosome)的主要成分。
miRNA:MicroRNA(miRNA)是在真核生物中发现的一类内源性的具有调控功能的非编码RNA,前体全长约90bp,其成熟miRNA大小长约20~25个核苷酸(nt)。miRNA广泛存在于真核生物中,是一组不编码蛋白质的短序列RNA,它本身不具有开放阅读框(ORF),对基因的表达具有调控作用。
sRNA、snRNA、miRNA的预测原理类似,首先用Rfam软件进行Rfam database比对注释,接着用其cmsearch程序(参数默认)确定最终的sRNA、snRNA、miRNA。
samples | 5S_rRNA number | 5S_rRNA average length | 5S_rRNA totle length | 5_8S_rRNA number | 5_8S_rRNA average length | 5_8S_rRNA totle length | 5_ureB_sRNA number | 5_ureB_sRNA average length | 5_ureB_sRNA totle length | Afu_182 number | Afu_182 average length | Afu_182 totle length | Afu_190 number | Afu_190 average length | Afu_190 totle length | Afu_198 number | Afu_198 average length | Afu_198 totle length | Afu_294 number | Afu_294 average length | Afu_294 totle length | Afu_298 number | Afu_298 average length | Afu_298 totle length | Afu_300 number | Afu_300 average length | Afu_300 totle length | Afu_304 number | Afu_304 average length | Afu_304 totle length | Afu_309 number | Afu_309 average length | Afu_309 totle length | Afu_335 number | Afu_335 average length | Afu_335 totle length | Afu_455 number | Afu_455 average length | Afu_455 totle length | Afu_513 number | Afu_513 average length | Afu_513 totle length | Afu_514 number | Afu_514 average length | Afu_514 totle length | Fungi_SRP number | Fungi_SRP average length | Fungi_SRP totle length | Fungi_U3 number | Fungi_U3 average length | Fungi_U3 totle length | Intron_gpI number | Intron_gpI average length | Intron_gpI totle length | LSU_rRNA_bacteria number | LSU_rRNA_bacteria average length | LSU_rRNA_bacteria totle length | LSU_rRNA_eukarya number | LSU_rRNA_eukarya average length | LSU_rRNA_eukarya totle length | RNase_MRP number | RNase_MRP average length | RNase_MRP totle length | SSU_rRNA_bacteria number | SSU_rRNA_bacteria average length | SSU_rRNA_bacteria totle length | SSU_rRNA_eukarya number | SSU_rRNA_eukarya average length | SSU_rRNA_eukarya totle length | TPP number | TPP average length | TPP totle length | Telomerase_Asco number | Telomerase_Asco average length | Telomerase_Asco totle length | U2 number | U2 average length | U2 totle length | U4 number | U4 average length | U4 totle length | U5 number | U5 average length | U5 totle length | U6 number | U6 average length | U6 totle length | snR191 number | snR191 average length | snR191 totle length | snR36 number | snR36 average length | snR36 totle length | snR44 number | snR44 average length | snR44 totle length | snR51 number | snR51 average length | snR51 totle length | snR73 number | snR73 average length | snR73 totle length | snR75 number | snR75 average length | snR75 totle length | snoR38 number | snoR38 average length | snoR38 totle length | snoZ13_snr52 number | snoZ13_snr52 average length | snoZ13_snr52 totle length | snosnR60_Z15 number | snosnR60_Z15 average length | snosnR60_Z15 totle length | snosnR61 number | snosnR61 average length | snosnR61 totle length | tRNA number | tRNA average length | tRNA totle length |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
sallet_1 | 37 | 112.53 | 5213 | 12 | 152.21 | 1821 | 1 | 292.0 | 292 | 1 | 165.0 | 165 | 1 | 21.0 | 21 | 1 | 123.0 | 123 | 1 | 26.0 | 26 | 2 | 82.0 | 164 | 1 | 15.0 | 15 | 1 | 65.0 | 65 | 1 | 354.0 | 354 | 1 | 22.0 | 22 | 1 | 24.0 | 24 | 1 | 33.0 | 33 | 1 | 112.0 | 112 | 1 | 233.0 | 233 | 2 | 222.5 | 445 | 4 | 278.5 | 1114 | 1 | 3356.0 | 3356 | 15 | 2140.666667 | 32110 | 1 | 214.0 | 214 | 2 | 1632.5 | 3265 | 18 | 1255.611111 | 22601 | 4 | 145.25 | 581 | 1 | 21.0 | 21 | 4 | 86.25 | 345 | 1 | 135.0 | 135 | 1 | 213.0 | 213 | 4 | 55.25 | 221 | 1 | 221.0 | 221 | 1 | 211.0 | 211 | 1 | 123.0 | 123 | 1 | 111.0 | 111 | 1 | 21.0 | 21 | 1 | 84.0 | 84 | 2 | 81.0 | 162 | 1 | 123.0 | 123 | 1 | 106.0 | 106 | 1 | 12.0 | 12 | 120 | 101.95 | 12234 |
sallet_5 | 22 | 111.33 | 5321 | 13 | 132.32 | 1213 | 1 | 221.0 | 221 | 1 | 121.0 | 121 | 1 | 34.0 | 34 | 1 | 121.0 | 121 | 1 | 63.0 | 63 | 2 | 21.0 | 42 | 1 | 67.0 | 67 | 1 | 63.0 | 63 | 1 | 662.0 | 662 | 1 | 35.0 | 35 | 1 | 44.0 | 44 | 1 | 45.0 | 45 | 1 | 214.0 | 214 | 1 | 321.0 | 321 | 2 | 221.0 | 442 | 4 | 261 | 1044 | 1 | 3321.0 | 3321 | 15 | 2147.333333 | 32210 | 1 | 437.0 | 437 | 2 | 1072.5 | 2145 | 16 | 1585.75 | 25372 | 3 | 78 | 234 | 1 | 33.0 | 33 | 2 | 222 | 444 | 1 | 625.0 | 625 | 1 | 332.0 | 332 | 2 | 122.5 | 245 | 1 | 225.0 | 225 | 1 | 332.0 | 332 | 1 | 138.0 | 138 | 1 | 101.0 | 101 | 1 | 44.0 | 44 | 1 | 44.0 | 44 | 2 | 34.0 | 68 | 1 | 96.0 | 96 | 1 | 122.0 | 122 | 1 | 23.0 | 23 | 117 | 86.31623932 | 10099 |
sallet_6 | 57 | 113.24 | 5442 | 21 | 121.21 | 1653 | 1 | 244.0 | 244 | 1 | 113.0 | 113 | 1 | 55.0 | 55 | 1 | 222.0 | 222 | 1 | 62.0 | 62 | 2 | 33.0 | 66 | 1 | 86.0 | 86 | 1 | 72.0 | 72 | 1 | 222.0 | 222 | 1 | 55.0 | 55 | 1 | 43.0 | 43 | 1 | 43.0 | 43 | 1 | 221.0 | 221 | 1 | 221.0 | 221 | 2 | 124.5 | 249 | 4 | 223 | 892 | 1 | 3326.0 | 3326 | 15 | 2148 | 32220 | 1 | 342.0 | 342 | 2 | 1660.5 | 3321 | 12 | 1778.75 | 21345 | 2 | 110.5 | 221 | 1 | 35.0 | 35 | 4 | 168.75 | 675 | 1 | 213.0 | 213 | 1 | 213.0 | 213 | 3 | 180.6666667 | 542 | 1 | 321.0 | 321 | 1 | 211.0 | 211 | 1 | 221.0 | 221 | 1 | 212.0 | 212 | 1 | 33.0 | 33 | 1 | 53.0 | 53 | 2 | 47.0 | 94 | 1 | 22.0 | 22 | 1 | 234.0 | 234 | 1 | 33.0 | 33 | 125 | 88.896 | 11112 |
sallet_4 | 72 | 114.42 | 5762 | 23 | 144.11 | 1887 | 1 | 276.0 | 276 | 1 | 177.0 | 177 | 1 | 75.0 | 75 | 1 | 165.0 | 165 | 1 | 12.0 | 12 | 2 | 56.0 | 112 | 1 | 66.0 | 66 | 1 | 46.0 | 46 | 1 | 241.0 | 241 | 1 | 67.0 | 67 | 1 | 31.0 | 31 | 1 | 32.0 | 32 | 1 | 105.0 | 105 | 1 | 225.0 | 225 | 2 | 245.0 | 445 | 4 | 228.5 | 914 | 1 | 3116.0 | 3116 | 15 | 2140 | 32100 | 1 | 356.0 | 356 | 2 | 1173 | 2346 | 16 | 2009.0625 | 32145 | 4 | 139 | 556 | 1 | 64.0 | 64 | 5 | 174.4 | 872 | 1 | 332.0 | 332 | 1 | 214.0 | 214 | 4 | 55.25 | 221 | 1 | 342.0 | 342 | 1 | 432.0 | 432 | 1 | 214.0 | 214 | 1 | 333.0 | 333 | 1 | 55.0 | 55 | 1 | 36.0 | 36 | 2 | 48.0 | 96 | 1 | 37.0 | 37 | 1 | 584.0 | 584 | 1 | 83.0 | 83 | 109 | 112.2110092 | 12231 |
sallet_3 | 21 | 112.62 | 5213 | 21 | 154.45 | 1213 | 1 | 288.0 | 288 | 1 | 198.0 | 198 | 1 | 43.0 | 43 | 1 | 172.0 | 172 | 1 | 25.0 | 25 | 2 | 22.0 | 44 | 1 | 24.0 | 24 | 1 | 77.0 | 77 | 1 | 276.0 | 276 | 1 | 88.0 | 88 | 1 | 56.0 | 56 | 1 | 36.0 | 36 | 1 | 104.0 | 104 | 1 | 325.0 | 325 | 2 | 221.5 | 443 | 4 | 227 | 908 | 1 | 3446.0 | 3446 | 15 | 2614.666667 | 39220 | 1 | 358.0 | 358 | 2 | 2266 | 4532 | 14 | 1523.642857 | 21331 | 5 | 153 | 765 | 1 | 33.0 | 33 | 5 | 112.6 | 563 | 1 | 432.0 | 432 | 1 | 221.0 | 221 | 5 | 69 | 345 | 1 | 214.0 | 214 | 1 | 321.0 | 321 | 1 | 332.0 | 332 | 1 | 222.0 | 222 | 1 | 56.0 | 56 | 1 | 78.0 | 78 | 2 | 66.0 | 132 | 1 | 62.0 | 62 | 1 | 124.0 | 124 | 1 | 34.0 | 34 | 122 | 101.8934426 | 12431 |
sallet_2 | 34 | 111.91 | 5887 | 16 | 151.41 | 1214 | 1 | 294.0 | 294 | 1 | 191.0 | 191 | 1 | 11.0 | 11 | 1 | 122.0 | 122 | 1 | 87.0 | 87 | 2 | 56.0 | 112 | 1 | 88.0 | 88 | 1 | 44.0 | 44 | 1 | 288.0 | 288 | 1 | 93.0 | 93 | 1 | 91.0 | 91 | 1 | 85.0 | 85 | 1 | 125.0 | 125 | 1 | 214.0 | 214 | 2 | 222.5 | 445 | 4 | 213.5 | 854 | 1 | 3356.0 | 3356 | 15 | 2646.666667 | 39700 | 1 | 437.0 | 437 | 2 | 1632.5 | 3265 | 12 | 2678.75 | 32145 | 6 | 147.8333333 | 887 | 1 | 27.0 | 27 | 4 | 140.5 | 562 | 1 | 221.0 | 221 | 1 | 332.0 | 332 | 2 | 160.5 | 321 | 1 | 321.0 | 321 | 1 | 342.0 | 342 | 1 | 213.0 | 213 | 1 | 101.0 | 101 | 1 | 87.0 | 87 | 1 | 84.0 | 84 | 2 | 63.0 | 126 | 1 | 88.0 | 88 | 1 | 321.0 | 321 | 1 | 55.0 | 55 | 111 | 120.1171171 | 13333 |
说明: samples:样本名称; * number:ncRNA数量; * average length:ncRNA平均长度; * totle length:ncRNA总长度。
customer_files/04function_annotation/ ├── 04.01common_database/ ├────── 04.01.00all_result_count │ ├── [物种].[样本].all_anno_count.svg [所有常见数据库注释结果汇总图] │ └── [物种].[样本].all_anno_count.txt [各样本预测基因gff文件] ├────── 04.01.01GO_result │ ├── [物种].[样本].dataPlot.go.alldata.txt [各样本GO数据库注释结果统计] │ ├── [物种].[样本].dataPlot.go.txt [各样本GO数据库注释结果统计(前20个结果)] │ └── [物种].[样本].GO_classes.svg [各样本GO数据库注释结果统计图] ├────── 04.01.02KEGG_result │ ├── [物种].[样本].dataPlot.kegg.txt [各样本KEGG数据库注释结果统计] │ └── [物种].[样本].Kegg_Classes.svg [各样本KEGG数据库注释结果统计图] ├────── 04.01.03eggNOG_result │ ├── [物种].[样本].Eggnog.count.txt [各样本Eggnog数据库注释结果统计] │ ├── [物种].[样本].Eggnog.result.emapper.annotations [各样本Eggnog数据库注释结果(该结果也包含GO和KEGG注释结果)] │ └── [物种].[样本].Eggnog_plot.svg [各样本Eggnog数据库注释结果统计图] ├────── 04.01.04KOG_result │ ├── [物种].[样本].diamond.KOG.result [各样本KOG数据库注释结果] │ ├── [物种].[样本].KOG.fig.count.txt [各样本KOG数据库注释结果统计] │ └── [物种].[样本].KOG_plot.svg [各样本KOG数据库注释结果统计图] ├────── 04.01.05NR_result │ ├── [物种].[样本].nr_count.txt [各样本NR数据库注释结果统计] │ ├── [物种].[样本].nr_plot.svg [各样本NR数据库注释结果统计图] │ └── [物种].[样本].diamond.nr.result [各样本NR数据库注释结果] ├────── 04.01.06TCDB_result │ ├── [物种].[样本].tcdb_plot.svg [各样本tcdb数据库注释结果统计图] │ └── [物种].[样本].diamond.tcdb.result [各样本tcdb数据库注释结果] ├────── 04.01.07Pfam_result │ └── [物种].[样本].Pfam.tblout.result [各样本Pfam数据库注释结果] ├────── 04.01.08Swiss_Prot_result │ └── [物种].[样本].diamond.swissprot.result [各样本swissprot数据库注释结果] ├────── 04.01.09CAZy_result │ ├── [物种].[样本].cazy_plot.svg [各样本cazy数据库注释结果图] │ └── [物种].[样本].CAZyme.table [各样本cazy数据库注释结果] ├── 04.02Effector/ │ ├── [物种].[样本].antismash_result [各样本次级代谢基因簇分析结果] │ ├── [物种].[样本].protein.oneline_summary.signalp5 [各样本分泌蛋白预测结果] │ ├── [物种].[样本].diamond.p450.result [各样本P450数据库注释结果] │ ├── [物种].[样本].tmhmm.txt [各样本分泌蛋白预测结果] │ └── [物种].[样本].TNSS_count.txt [各样本分泌系统蛋白及T3SS效应蛋白预测结果] └── 04.03Pathogenicity_analysis/ ├── [物种].[样本].diamond.DFVF.result [各样本DFVF数据库注释结果] ├── [物种].[样本].diamond.PHI.result [各样本PHI数据库注释结果] ├── [物种].[样本].PHI_count.svg [各样本PHI数据库注释结果统计图] └── [物种].[样本].PHI_count.txt [各样本PHI数据库注释结果统计]
目前提供注释的通用功能数据库主要有GO、KEGG、KOG、NR、Pfam和Swiss-Prot。
功能注释基本步骤如下:
1)将预测基因的蛋白序列与各功能数据库进行Diamond 比对(evalue ≤ 1e-5);
2)比对结果过滤:对于每一条序列的比对结果,选取 score 最高的比对结果进行注释。
本项目进行的编码基因的注释结果统计如下图所示:
说明:
横坐标database为参与注释的各个数据库,纵坐标number of gene为各个数据库注释出来的基因数量。
GO的全称是Gene Ontology,是一套国际标准化的基因功能描述的分类系统。GO分为三大类:1)细胞组分(Cellular Component):用于描述亚细胞结构、位置和大分子复合物,如核仁、端粒和识别起始的复合物;2)分子功能(Molecular Function):用于描述基因、基因产物个体的功能,如与碳水化合物结合或 ATP 水解酶活性等;3)生物过程(Biological Process):用来描述基因编码的产物所参与的生物过程,如有丝分裂或嘌呤代谢等。
GO数据库三大分类统计结果如下图:
说明:
横坐标GO Term为注释到的GO Term,结果数量太多的只显示前20个。纵坐标Count为注释到各个GO Term的基因数量。图中不同颜色分别对应GO数据库中的BP、CC、MF三个分类。
KEGG全称为Kyoto Encyclopedia of Genes and Genomes。系统分析基因产物和化合物在细胞中的代谢途径以及这些基因产物的功能的数据库。它整合了基因组、化学分子和生化系统等方面的数据,包括代谢通路(KEGG PATHWAY)、药物(KEGG DRUG)、疾病(KEGG DISEASE)、功能模型(KEGG MODULE)、基因序列(KEGG GENES)及基因组(KEGG GENOME)等等。KO(KEGG ORTHOLOG)系统将各个KEGG注释系统联系在一起,KEGG已建立了一套完整KO注释的系统,可完成新测序物种的基因组或转录组的功能注释。详见http://www.genome.jp/kegg/。
绘制KEGG数据库中注释基因数目统计图如下:
说明:横坐标count(%)为注释到各个KEGG pathway的基因占所有基因中的百分比,纵坐标为注释到的KEGG pathway。
eggNOG数据库,全称是evolutionary genealogy of genes: Non-supervised Orthologous Groups,是一个蛋白聚类数据库,带有功能描述和功能类别说明,由EMBL(欧洲分子生物实验室)维护。包含1,133个物种、721,801个直系同源组、41个不同水平的直系同源组分类,整合了5,214,234个蛋白序列。分别更新了4,873个COG数据库信息和4,850个KOG数据库信息。
eggNOG数据库按照功能一共可以分为二十五类,其统计结果如下图:
说明:横坐标eggNOG classes为eggNOG数据库的不同分类,纵坐标count为注释到eggNOG数据库不同分类的基因数量。
KOG数据库,属于COG数据库的一个针对真核生物的直系同源数据库。
COG,全称是Cluster of Orthologous Groups of proteins,由NCBI创建并维护的蛋白数据库,根据细菌、藻类和真核生物完整基因组的编码蛋白系统进化关系分类构建而成。通过比对可以将某个蛋白序列注释到某一个COG中,每一簇COG由直系同源序列构成,从而可以推测该序列的功能。COG数据库按照功能一共可以分为二十五类,详见http://www.ncbi.nlm.nih.gov/COG/。
COG数据库按照功能一共可以分为二十五类,其统计结果如下图:
说明:横坐标KOG classes为KOG数据库不同分类,纵坐标count(%)为注释到不同KOG classes基因占所有基因的百分比。
NR全称为Non-Redundant Protein Database,是一个非冗余的蛋白质数据库,由NCBI创建并维护,其特点在于内容比较全面,同时注释结果中会包含有物种信息,可作物种分类用。根据基因注释到的物种情况,统计注释到的物种及基因数目,其统计结果如下图:
说明:横坐标species为基因在NR数据库注释到的不同物种,纵坐标count为注释到不同物种的基因数量。
TCDB,全称是Transporter Classification Database,转运蛋白分类数据库,是膜转运蛋白,包括离子通道(ion channels)的分类系统(TC system)。TCDB数据库转移系统以5个级别进行分类,第一级统计结果如下图:
说明:横坐标Function classes为TCDB数据库的不同功能分类,纵坐标Number of matched genes为注释到不同功能分类的基因数量。
蛋白质一般由一个或多个功能区构成,这些区通常被称为域。结构域的不同组合方式产生的蛋白质在自然界中各种不同。因此蛋白结构域的鉴别对分析蛋白质的功能来说尤其重要。Pfam数据库有两个组成部分:Pfam-A和Pfam-B,其中Pfam-A经过人工筛选,质量较高。详见http://pfam.xfam.org/。
该分析对预测基因对应的蛋白质序列进行Pfam注释比对,获得每个蛋白序列的结构域信息,结果在04.01common_database/文件夹下,文件名格式为:[物种].[样本].Pfam.tblout.result。
Swiss-Prot是一个精选的蛋白质序列数据库,它提供一个高水平的注释结果,例如一个蛋白质功能、其域结构、翻译后修饰、变异等的描述。详见http://www.ebi.ac.uk/uniprot/。
我们使用diamond软件对预测的蛋白质序列和Swiss-Prot数据库提供的蛋白质序列进行比对,从而对每个蛋白质序列进行注释,结果在04.01common_database/文件夹下,文件名格式为:[物种].[样本].diamond.swissprot.result。
CAZy全称为Carbohydrate-Active enZYmes Database,碳水化合物酶相关的专业数据库,内容包括能催化碳水化合物降解、修饰、以及生物合成的相关酶系家族。其包含五个主要分类:糖苷水解酶 (Glycoside Hydrolases, GHs)、糖基转移酶(GlycosylTransferases, GTs)、多糖裂解酶(Polysaccharide Lyases, PLs)和糖类酯解酶(Carbohydrate Esterases, CEs)、氧化还原酶(Auxiliary Activities, AAs)。
碳水化合物结合结构域是一种非催化结构域,能折叠成特定的三维空间结构,具有结合碳水化合物的功能。近年来研究表明:碳水化合物结合结构域能通过结合碳水化合物活性酶的底物,提高碳水化合物活性酶的催化结构域作用于底物的活性。
CAZy数据库分类注释结果个数统计图展示如下:
说明:横坐标Cazy Classes为Cazy数据库不同分类,纵坐标Number of matched genes为注释到各个分类的基因数量。
分泌蛋白是指在细胞内合成后,在信号肽的引导下穿过细胞膜分泌到细胞外起作用的蛋白质。分泌蛋白中有许多是生命活动所需的重要酶类。分泌蛋白的N端是由15~30个氨基酸组成的信号肽,对分泌蛋白的分泌起主导作用。
使用SignalP、TMHMM工具进行预测,检测是否含有信号肽及跨膜结构,综合预测蛋白序列是否是分泌蛋白。
sample ID | Signal Protein | TMHMM Protein | Secreted Protein |
---|---|---|---|
sallet_1 | 1349 | 2231 | 235 |
sallet_2 | 1328 | 2447 | 123 |
sallet_3 | 1276 | 2135 | 233 |
sallet_4 | 1523 | 2251 | 256 |
sallet_5 | 1763 | 2664 | 276 |
sallet_6 | 1523 | 2213 | 289 |
说明: sample ID:样本名称; Signal Protein:Signal软件预测的含有信号肽的蛋白质数量; TMHMM Protein:TMHMM软件预测的含有跨膜结构的蛋白质数量; Secreted Protein:综合预测为分泌蛋白的数量。
病原菌通过分泌系统TNSS(type N secretion systems,目前确定的有7种,I型-VII型)将该类蛋白分泌至胞外或是宿主细胞中,通过控制免疫应答反应以及细胞衰亡引起病理反应,而其中革兰氏阴性菌的T3SS通常用来从分子水平研究病原菌,感染机制,毒力作用等,是研究得比较多的分泌系统。
对于TNSS系统,通过蛋白序列功能数据库注释结果中,提取分泌系统相关蛋白进行注释。对于革兰氏阴性菌,另外采用EffectiveT3 软件预测T3SS效应蛋白。
sample ID | totle gene | T1SS num | T2SS num | T3SS num | T4SS num | T5SS num | T6SS num | T7SS num |
---|---|---|---|---|---|---|---|---|
sallet_1 | 119330 | 1 | 12 | 12 | 23 | 12 | 26 | 27 |
sallet_2 | 128832 | 2 | 23 | 22 | 21 | 22 | 27 | 73 |
sallet_3 | 119221 | 2 | 21 | 23 | 24 | 26 | 34 | 32 |
sallet_4 | 132123 | 12 | 32 | 34 | 27 | 21 | 31 | 87 |
sallet_5 | 118872 | 23 | 22 | 21 | 26 | 24 | 26 | 73 |
sallet_6 | 121345 | 21 | 21 | 24 | 27 | 27 | 28 | 26 |
说明: sample ID:样本名称; totle gene:所有基因数量; T1SS num:T1SS数量; T2SS num:T2SS数量; T3SS num:T3SS数量; T4SS num:T4SS数量; T5SS num:T5SS数量; T6SS num:T6SS数量; T7SS num:T7SS数量;
sample ID | Totle gene | T3SS effective true | T3SS effective false |
---|---|---|---|
sallet_1 | 23866 | 2633 | 21233 |
sallet_2 | 12563 | 6266 | 6297 |
sallet_3 | 16553 | 7373 | 9180 |
sallet_4 | 17873 | 2183 | 15690 |
sallet_5 | 12222 | 3741 | 8481 |
sallet_6 | 23631 | 283 | 23348 |
说明: sample ID:样本名称; Totle gene:所有基因数量; T3SS effective true:预测为T3SS效应蛋白的数量; T3SS effective false:预测不是T3SS效应蛋白的数量;
次级代谢产物是微生物在一定的生长时期,以初级代谢产物为前体合成的对微生物的生命活动无明确功能,并非生长繁殖所必需的物质。采用antiSMASH程序对基因组进行预测。
PKS可分为三种类型:I型也成为模块类PKS,是由s多个结构域组成的多功能酶复合物。II型也成为芳香类PKS,主要合成芳香类化合物。III型也成查尔酮型PKS。使用antiSMASH程序对基因组进行预测。
sample ID | NRPS_cluster_number | NRPS_gene_number | NRPS-like_cluster_number | NRPS-like_gene_number | T1PKS_cluster_number | T1PKS_gene_number | T3PKS_cluster_number | T3PKS_gene_number | fungal-RiPP_cluster_number | fungal-RiPP_gene_number | terpene_cluster_number | terpene_gene_number |
---|---|---|---|---|---|---|---|---|---|---|---|---|
sallet_1 | 4 | 21 | 3 | 23 | 21 | 120 | 21 | 123 | 3 | 6 | 12 | 27 |
sallet_2 | 6 | 23 | 4 | 34 | 22 | 231 | 21 | 123 | 6 | 18 | 18 | 37 |
sallet_3 | 4 | 34 | 8 | 123 | 22 | 221 | 12 | 66 | 8 | 16 | 28 | 48 |
sallet_4 | 3 | 57 | 12 | 156 | 11 | 221 | 15 | 98 | 10 | 29 | 38 | 55 |
sallet_5 | 5 | 36 | 7 | 120 | 16 | 216 | 17 | 37 | 11 | 33 | 21 | 54 |
sallet_6 | 7 | 57 | 6 | 55 | 16 | 123 | 12 | 28 | 19 | 48 | 22 | 38 |
说明: sample ID:样本名称; *_cluster_number:某类次级代谢产物聚类数量; *_gene_number:某类次级代谢产物基因数量。
说明:横坐标PKS type为不同PKS类型,纵坐标count为注释到不同PKS类型的基因数量。
细胞色素P450(cytochromeP450或CYP450,简称CYP450)为一类亚铁血红素—硫醇盐蛋白的超家族,它参与内源性物质和包括药物、环境化合物在内的外源性物质的代谢。
我们使用diamond软件对预测的蛋白序列进行P450数据库注释,获得每个蛋白序列对应的P450信息,结果在04.02Effector/文件夹下,文件名格式为:[物种].[样本].diamond.p450.result。
PHI全称为Pathogen Host Interactions Database,病原与宿主互作数据库,主要来源于真菌、卵菌和细菌病原,感染的宿主包括动物、植物、真菌以及昆虫。该数据库对寻找药物干预的靶基因研究有重要作用,同时该数据库还包括抗真菌化合物和相应的靶基因。数据库中的每个基因都包含核酸和氨基酸序列,以及感染宿主过程中预测的蛋白功能的详细描述。
病原体PHI表型突变类型基因数目的统计情况如下图所示:
说明:横坐标mutation type为不同的病原PHI表型突变类型,纵坐标number of genes为注释到不同突变类型的基因数量。
DFVF数据库全称为database of fungal virulence factors(真菌毒力因子数据库),是一个综合的已知真菌毒力因子数据库,收集了来自85个属的228个真菌菌株所产生的2058个致病基因。每个基因详细描述引起的疾病和作用的宿主,更与Pfam功能域注释和GO注释信息进行了关联。
我们使用Diamond软件,把目标物种的氨基酸序列,与DFVF数据库进行比对,把目标物种的基因和其相对应的功能注释信息结合起来,得到注释结果,结果在04.03Pathogenicity_analysis/文件夹下,文件名格式为:[物种].[样本].diamond.DFVF.result。
customer_files/05Comparative_Genomics_Analysis ├── 05.01Collinearity_analysis/ │ ├── [物种].[样本].plot.svg [各样本基因组共线性图] │ ├── [物种].[样本].plotsr.pdf [各样本基因组共线性图] │ ├── [物种].[样本].syri.out [各样本基因组结构差异文件] │ └── [物种].[样本].syri.vcf [各样本基因组结构差异文件] ├── 05.02SNP/ │ └── [样本].snp [各样本SNP识别结果] ├── 05.03Indel/ │ └── [物种].[样本]_indel.result [各样本Indel识别结果] ├── 05.04SV/ │ └── [样本].raw.vcf [各样本SV识别结果] └── 05.04SV/ └── [样本].sv.svg [各样本SV识别结果可视化]
共线性指的是遗传学中的基因连锁关系, 是不同物种基因组上同源基因以相同顺序排列的现象。两个物种之间的共线性程度可以作为衡量他们之间进化距离的尺度,可以知道物种间的亲缘关系。
使用MUMmer软件对样本基因组和参考基因组进行比对,确定样本基因组和参考基因组之间的比对关系。然后使用SyRI软件识别样本基因组和参考基因组之间的共线性区域。
样品基因组和参考基因组之间的共线性展示结果如下图:
说明:横坐标和纵坐标分别表示比对的两个基因组位置,图中的连线为两个基因组共线性部分。
说明:横坐标Chromosome postion(in Mbp)表示基因组上的位置,单位为Mb。纵坐标Reference Chromosome ID为参考基因组的不同contig,每个contig ID对应的上下两条横线分别表示参考基因组和对比基因组的contig。
SNP(单核苷酸多态性)主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性,包括单个碱基的转换、颠换等。
采用MUMmer比对软件进行个体SNP的检测,依照SNP和基因之间的位置关系及相互作用,对SNP功能进行注释。
Reference Name | sample ID | Start_syn | Stop_syn | Start_nonsyn | Stop_nonsyn | Premature_stop | Synonymous | Nonsynonymous | Total_CDS_SNP | Intergenic | Total_SNP | GCF_000146045 | sallet_1 | 12 | 21 | 23 | 11 | 22 | 12 | 34 | 44 | 21 | 21 | GCF_000146045 | sallet_2 | 20 | 32 | 21 | 12 | 44 | 12 | 2 | 45 | 21 | 119 | GCF_000146045 | sallet_3 | 23 | 1 | 2 | 21 | 2 | 2 | 2 | 32 | 23 | 110 | GCF_000146045 | sallet_4 | 12 | 1 | 2 | 23 | 3 | 1 | 3 | 22 | 24 | 92 | GCF_000146045 | sallet_5 | 21 | 2 | 1 | 23 | 3 | 2 | 2 | 33 | 32 | 119 | GCF_000146045 | sallet_6 | 12 | 1 | 2 | 23 | 3 | 2 | 2 | 44 | 22 | 111 |
---|
说明: Reference Name:参考序列ID; Sample_name:样品ID; Start_syn:起始密码子同义突变; Stop_syn:终止密码子同义突变; Start_nonsyn:起始密码子非同义突变; Stop_nonsyn:终止密码子非同义突变; Premature_stop:无义突变,该位点三联体密码子突变成终止密码子; Synonymous:基因区内同义突变; Nonsynonymous:基因区内的非同义突变; Total_CDS_SNP:位于基因区的SNP; Intergenic:位于基因间区的SNP; Total_SNP:样品总SNP。
InDel是指基因组中小片段的插入和缺失序列。
利用LASTZ软件检测长度小于50bp的小片段插入与缺失(InDel),对InDel类型进行统计,结果见下表:
Reference Name | sample ID | Start codon ins | CDS inside ins | Stop codon ins | Start codon del | CDS inside del | Stop codon del | GCF_000146045 | sallet_1 | 12 | 1 | 3 | 23 | 3 | 2 | GCF_000146045 | sallet_2 | 20 | 1 | 2 | 23 | 3 | 2 | GCF_000146045 | sallet_3 | 23 | 1 | 2 | 21 | 2 | 2 | GCF_000146045 | sallet_4 | 12 | 1 | 2 | 23 | 3 | 1 | GCF_000146045 | sallet_5 | 21 | 2 | 1 | 23 | 3 | 2 | GCF_000146045 | sallet_6 | 12 | 1 | 2 | 23 | 3 | 2 |
---|
说明 Reference Name:参考序列ID; Sample ID:样品ID; Start codon ins:位于起始密码子的插入; CDS inside ins:位于CDS中间的插入; Stop codon ins:位于终止密码子的插入; Start codon del:位于起始密码子的缺失; CDS inside del:位于CDS中间的缺失; Stop codon del:位于终止密码子的缺失。
对InDel进行注释,注释结果见下表:
Reference Name | sample ID | Frame-shifted | Start codon | Stop codon | Premature stop | Effect | CDS with indel | All CDS | GCF_000146045 | sallet_1 | 12 | 1 | 3 | 23 | 3 | 2 | 200 | GCF_000146045 | sallet_2 | 20 | 1 | 2 | 23 | 3 | 2 | 200 | GCF_000146045 | sallet_3 | 23 | 1 | 2 | 21 | 2 | 2 | 200 | GCF_000146045 | sallet_4 | 12 | 1 | 2 | 23 | 3 | 1 | 200 | GCF_000146045 | sallet_5 | 21 | 2 | 1 | 23 | 3 | 2 | 200 | GCF_000146045 | sallet_6 | 12 | 1 | 2 | 23 | 3 | 2 | 200 |
---|
说明 Reference Name:参考序列ID; Sample ID:样品ID; Frame-shifted:ORF移码突变; Start codon:ORF起始密码子被破坏; Stop codon:ORF终止密码子被破坏; Premature stop:提前终止了ORF; Effect:对ORF无重大影响; CDS with indel:存在InDel的CDS个数; All CDS:参考序列的CDS总个数。
基因组结构变异(Structural Variation,SV)一般是指基因组上大长度的序列变化和位置关系变化。基因组结构变异包含很多种类型,通常定义是长度大于50bp的插入(Insertion)、缺失(Deletion)、串联重复(Tandem repeate)、染色体倒位(Inversion)、染色体内部或染色体之间的序列易位(Translocation)、拷贝数变异(CNV)以及形式更为复杂的嵌合性变异。其中,占比最大的就是大片段的插入删除。
使用MUMmer软件对样本基因组和参考基因组进行比对,确定样本基因组和参考基因组之间的比对关系。然后使用SyRI软件识别样本基因组中的结构变异信息。
全基因组结构变异类型配对图如下所示:
说明 红色(圆环):样本基因组; 绿色(圆环):参考基因组; 橙色:大片段插入; 蓝色:易位; 绿色:大片段删除; 粉色:倒置;
customer_files/06population_evolution/ ├── 06.01cor_pan_genes/ │ ├── [物种].cd_hit.result.clstr [各样本蛋白质聚类结果] │ └── Flower_plot.svg [各样本共有基因及特意基因花瓣图] └── 06.02Hcluster/ ├── gene_family_bar_count.txt [各样本基因家族柱状图数据] ├── gene_family_count.txt [各样本基因家族统计] ├── orthologs_gene_bar_plot.svg [同源基因柱状图] ├── Phylogenetic_Tree.svg [系统发生树] └── Phylogenetic_Tree_dis.svg [系统发生树带距离]
所有样本中均存在的同源基因称为共有基因(Core gene),除去共有基因,其他的基因称为非共有基因(Dispensable gene),特有基因(Specific gene)是只有在某个样品中所特异拥有的基因。其中共有基因(Core gene)和特有基因(Specific gene)很可能与样品的共性和特性相对应,可以作为样本间功能差异的研究依据。
使用cd-hit软件对需要分析的多个样品的蛋白序列进行聚类,并用R进行绘图。
通过比较多个样品的蛋白质序列,我们统计了它们的共有基因和特有基因,以花瓣图形式展示:
说明:花瓣图中不同花瓣表示各个样本中特异的基因数量,花瓣中心为所有样本共有基因数量。
基因组进化中,一个基因通过基因重复产生了两个或更多的拷贝,这些基因即构成一个基因家族。基因家族是具有共同祖先的一组基因,家族内不同基因往往具有相似的结构和功能。
使用diamond软件对多个目标基因组的蛋白进行两两比对,过滤比对不可信的结果,再使用Solar(Version 0.9.6)去除冗余,用Hcluster-sg按照比对相似度对蛋白进行聚类,得到基因家族聚类结果。
samples | totle gene number | gene number in families | uncluster genes number | family number | unique family number |
---|---|---|---|---|---|
sallet_1 | 11933 | 11926 | 7 | 11241 | 10798 |
sallet_2 | 11933 | 11923 | 10 | 11238 | 10794 |
sallet_3 | 11933 | 11924 | 9 | 11239 | 10797 |
sallet_4 | 11933 | 11925 | 8 | 11241 | 10798 |
sallet_5 | 11933 | 11926 | 7 | 11241 | 10799 |
sallet_6 | 11933 | 11923 | 51 | 11240 | 10797 |
说明: samples:样本名称; totle gene number:所有基因数量; gene number in families:可归到基因家族中基因数量; uncluster genes number:未归到聚类中基因数量; family number:样本中基因家族数量; unique family number:唯一家族数量
说明:横坐标samples为各个样本名称,纵坐标Number of genes为各个样本不同基因家族中的基因数量。
系统发生树(英文:phylogenetic tree或evolutionary tree)是表明被认为具有共同祖先的各物种相互间演化关系的树。 它用来表示系统发生研究的结果,用它描述物种之间的进化关系。
用Treebest(Version 1.9.2)(Neighbor-Joining,NJ)或 PHYML(Maximum likelihood,ML)(Version v3.0)软件构建进化树,物种之间的进化树见下图:
说明:该图为系统发生树,即进化树,图中各个样本名字所在的位置为进化树的叶子节点。图中分叉位置标注的数字为进化树的支持度,该数值在0%-100%之间,值越大说明越多证据支持该分支。
customer_files/07methylation/ ├── 07.01modification/ │ ├── [样本].basemods.gff [各样本识别的甲基化结果] │ ├── [物种].modifications_count.txt [所有样本识别的甲基化分类统计] │ ├── [样本].motif.gff [各样本识别的甲基化motif结果] │ └── [物种].motif_count.txt [所有样本识别的甲基化motif结果统计] ├── 07.02motif_GR_IGR/ │ └── [物种].motif_GR_IGR_count.txt [所有样本识别的甲基化motif在GR/IGR区域统计] ├── 07.03unmodification_motif_GR_IGR/ │ └── [物种].unmodification_motif_GR_IGR_count.txt [所有样本识别的未甲基化motif在GR/IGR区域统计] ├── 07.04motif_gene_anno/ │ ├── [物种].motif_gene_anno.txt [所有样本motif基因注释结果统计] │ ├── [物种].[样本].augustus.protein.oneline_summary.signalp5 [各样本motif基因secretory注释结果] │ ├── [物种].[样本].diamond.DFVF.result [各样本motif基因DFVF注释结果] │ ├── [物种].[样本].diamond.KOG.result [各样本motif基因KOG注释结果] │ ├── [物种].[样本].diamond.nr.result [各样本motif基因NR注释结果] │ ├── [物种].[样本].diamond.PHI.result [各样本motif基因PHI注释结果] │ ├── [物种].[样本].diamond.swissprot.result [各样本motif基因swissprot注释结果] │ ├── [物种].[样本].diamond.tcdb.result [各样本motif基因tcdb注释结果] │ └── [物种].[样本].Eggnog.result.emapper.annotations [各样本motif基因GO和KEGG注释结果] ├── 07.05COG_anno/ │ ├── [样本].COG.fig.count.txt [各样本motif序列COG注释结果统计] │ └── [样本].COG_plot.svg [各样本motif序列COG注释结果统计图] └── 07.06circos/ └── [样本].circos.svg [各样本甲基化circos图]
使用SMRT Link,对最终的基因组组装结果进行甲基化位点检测和可能的甲基化转移酶识别的核苷酸基序(motif)的预测。能够预测到的修饰类型包括m6A,m4C和m5C,以及未知类型(modified_base)。
samples | m4C number | m4C percent(%) | m6A number | m6A percent(%) | modified_base number | modified_base percent(%) |
---|---|---|---|---|---|---|
sallet_1 | 27382 | 4.208840379 | 1123 | 0.172614409 | 622078 | 95.61854521 |
sallet_2 | 27162 | 3.551001358 | 1287 | 0.168254869 | 736462 | 96.28074377 |
sallet_3 | 26631 | 4.016093934 | 1264 | 0.190617804 | 635212 | 95.79328826 |
sallet_4 | 17263 | 3.109408378 | 1652 | 0.297557936 | 536271 | 96.59303369 |
sallet_5 | 26317 | 3.966187113 | 1736 | 0.261629397 | 635481 | 95.77218349 |
sallet_6 | 28374 | 3.703839075 | 1284 | 0.167608704 | 736412 | 96.12855222 |
说明: samples:样本名称; m4C number:m4C碱基数量; m4C percent(%):m4C碱基占所有碱基百分比; m6A number:m6A碱基数量; m6A percent(%):m6A碱基占所有碱基百分比; modified_base number:所有甲基化修饰碱基数量; modified_base percent(%):所有甲基化修饰碱基数量占所有碱基百分比。
sampleID | motifString | centerPos | ModificationType | fraction | nDetected | meanScore | objectiveScore |
---|---|---|---|---|---|---|---|
sallet_1 | CAGNNNNNNNNTCTY | 1167 | 6mA | 38 | 1156 | 32 | 56 |
sallet_2 | AGANNNNNNNNCTG | 1167 | 6mA | 33 | 1156 | 35 | 90 |
sallet_3 | GAACAC | 1167 | 6mA | 20 | 1056 | 36 | 98 |
sallet_4 | GCGGCCGC | 1167 | 6mA | 21 | 156 | 45 | 100 |
sallet_5 | GCNNNNNNNGC | 1167 | 6mA | 38 | 1156 | 34 | 76 |
sallet_6 | GCNNNNNNNGCGGGG | 14447 | 4mA | 21 | 1226 | 34 | 82 |
说明 motifString: 甲基转移酶识别的核苷酸motif序列; centerPos:修饰碱基所在的位置; ModificationType:修饰类型; fraction:修饰的motif占基因组中全部此motif的比例; nDetected:修饰的motif个数; meanScore:平均得分; objectiveScore:全部motif的总得分值。
sampleID | m4C.ingenome | m4C.inGR(%) | m4C.inIGR(%) | 5mC.ingenome | m5C.inGR(%) | m5C.inIGR(%) | m6A.ingenome | m6A.inGR(%) | m6A.inIGR(%) | modified_base.ingenome | modified_base.inGR(%) | modified_base.inIGR(%) |
---|---|---|---|---|---|---|---|---|---|---|---|---|
sallet_1 | 2211 | 20.62 | 79.38 | 1111 | 39.96 | 60.04 | 1234 | 27.07 | 72.93 | 4556 | 27.09 | 72.91 |
sallet_2 | 2132 | 21.39 | 78.61 | 2342 | 18.96 | 81.04 | 2221 | 15.04 | 84.96 | 6695 | 18.43 | 81.57 |
sallet_3 | 1234 | 36.95 | 63.05 | 3214 | 13.81 | 86.19 | 2555 | 13.07 | 86.93 | 7003 | 17.62 | 82.38 |
sallet_4 | 2222 | 20.52 | 79.48 | 3421 | 12.98 | 87.02 | 2251 | 14.84 | 85.16 | 7894 | 15.63 | 84.37 |
sallet_5 | 1232 | 37.01 | 62.99 | 2134 | 20.81 | 79.19 | 2213 | 15.09 | 84.91 | 5579 | 22.12 | 77.88 |
sallet_6 | 1232 | 37.01 | 62.99 | 2222 | 19.98 | 80.02 | 3214 | 10.39 | 89.61 | 6668 | 18.51 | 81.49 |
说明 m4C. in genome:m4C甲基化类型在基因组上的数量; m4C. in GR(%):m4C甲基化类型在基因区域上的数量; m4C. in IGR(%):m4C甲基化类型在基因间区上的数量; 5mC. in genome:m5C甲基化类型在基因组上的数量; m5C. in GR(%):m5C甲基化类型在基因区域上的数量; m5C. in IGR(%):m5C甲基化类型在基因间区上的数量; m6A. in genome:m6A甲基化类型在基因组上的数量; m6A. in GR(%):m6A甲基化类型在基因区域上的数量; m6A. in IGR(%):m6A甲基化类型在基因间区上的数量; modified_base. in genome: 未知类型甲基化类型在基因组上的数量; modified_base. in GR(%):未知类型甲基化类型在基因区域上的数量; modified_base. in IGR(%):未知类型甲基化类型在基因间区上的数量。
sampleID | motifString | No.ingenome | No.inGR(%) | No.inIGR(%) |
---|---|---|---|---|
sallet_1 | GCNNNNNNNGCGGGG | 1111 | 20.62 | 79.38 |
sallet_2 | GCNNGCGCGCGGGG | 1221 | 20.32 | 79.68 |
sallet_3 | GCCCCNNNNGCGGGG | 2221 | 25.62 | 74.38 |
sallet_4 | GCGCGCNNNNGCGGGG | 4426 | 10.42 | 89.58 |
sallet_5 | GCCCNNGCGGGG | 1234 | 20.62 | 79.38 |
sallet_6 | GCCNNNGCGGGG | 3342 | 27.62 | 72.38 |
说明 motifString:未甲基化的甲基转移酶识别的核苷酸motif序列; No. in genome:未甲基化motif序列在基因组上的数量; No. in GR(%):未甲基化motif序列在基因区域上的数量; No. in IGR(%):未甲基化motif序列在基因间区上的数量。
样品各motif位点上的基因在NR,SwissProt,KEGG,GO等各大数据库的注释情况展示。
sampleID | motifString | nr | swissprot | KOG | tcdb | PHI | DFVF | cazy | secretory | GO | KEGG |
---|---|---|---|---|---|---|---|---|---|---|---|
sallet_1 | GCNNNNNNNGCGGGG | 1112 | 123 | 1124 | 234 | 345 | 451 | 236 | 234 | 443 | 231 |
sallet_2 | GCNNGCGCGCGGGG | 2134 | 2123 | 2213 | 2222 | 234 | 324 | 443 | 231 | 234 | 333 |
sallet_3 | GCCCCNNNNGCGGGG | 2134 | 2123 | 2213 | 2222 | 234 | 324 | 443 | 231 | 234 | 333 |
sallet_4 | GCGCGCNNNNGCGGGG | 2134 | 2123 | 2213 | 2222 | 234 | 324 | 443 | 231 | 234 | 333 |
sallet_5 | GCCCNNGCGGGG | 2134 | 2123 | 2213 | 2222 | 234 | 324 | 443 | 231 | 234 | 333 |
sallet_6 | GCCNNNGCGGGG | 2134 | 2123 | 2213 | 2222 | 234 | 324 | 443 | 231 | 234 | 333 |
说明: sampleID:样本名称; motifString:motif序列; nr:motif序列在nr数据库注释到的结果; swissprot:motif序列在swissprot数据库注释到的结果; KOG:motif序列在KOG数据库注释到的结果; tcdb:motif序列在tcdb数据库注释到的结果; PHI:motif序列在PHI数据库注释到的结果; DFVF:motif序列在DFVF数据库注释到的结果; cazy:motif序列在cazy数据库注释到的结果; secretory:motif序列在secretory数据库注释到的结果; GO:motif序列在GO数据库注释到的结果; KEGG:motif序列在KEGG数据库注释到的结果。
甲基转移酶识别的核苷酸motif序列的COG注释和绘图分析。
说明:横坐标KOG classes为COG数据库中不同的功能分类,纵坐标count(%)为注释到对应功能分类中的基因占所有基因的百分比。
表观修饰分布圈图如下所示:
说明:
图中各圈从外至内依次代表:基因组位置,正义链修饰位点分布情况,m4C修饰位点数量,m5C修饰位点数量,m6C修饰位点数量,GC含量。
软件 | 版本 |
---|---|
Trimmomatic | 0.39 |
FastQC | 0.11.9 |
jellyfish | 2.2.10 |
bedtools | 2.30.0 |
canu | 2.2 |
samtools | 1.7 |
pbmm2 | 1.9.0 |
minimap2 | 2.15 |
RepeatModeler | 2.0.3 |
tRNAscan-SE | 2.0.9 |
diamond | 0.8.22 |
SignalP | 5.0b |
TMHMM | 2.0 |
antiSMASH | 6.1.1 |
MUMmer4 | 4.0.0 |
lastz | 1.04.15 |
OrthoFinder | 2.5.4 |
ipdSummary | 3.0 |
1. Trimmomatic: a flexible trimmer for Illumina sequence data. (Trimmomatic)
2. A fast, lock-free approach for efficient parallel counting of occurrences of k-mers. (jellyfish)
3. Canu: scalable and accurate long-read assembly via adaptive k-mer weighting and repeat separation. (canu)
4. The Sequence Alignment/Map format and SAMtools. (samtools)
5. Minimap2: pairwise alignment for nucleotide sequences. (Minimap2)
6. tRNAscan-SE: a program for improved detection of transfer RNA genes in genomic sequence. (tRNAscan-SE)
7. Sensitive protein alignments at tree-of-life scale using DIAMOND. (diamond)
8. SignalP 5.0 improves signal peptide predictions using deep neural networks. (SignalP)
9. Predicting Transmembrane Protein Topology with a Hidden Markov Model: Application to Complete Genomes. (TMHMM)
10. antiSMASH: rapid identification, annotation and analysis of secondary metabolite biosynthesis gene clusters in bacterial and fungal genome sequences. (antiSMASH)
11. MUMmer4: A fast and versatile genome alignment system. PLoS computational biology. (MUMmer4)
12. Improved pairwise alignment of genomic DNA. (LASTZ)
13. OrthoFinder: solving fundamental biases in whole genome comparisons dramatically improves orthogroup inference accuracy. (OrthoFinder)