科研

Genome Biology | 系统评估7种纳米孔测序DNA甲基化分析工具

图片来源:La Jolla Institute for Immunology

DNA甲基化是基因转录调控中一个基本的表观遗传修饰过程。一些DNA修饰,例如5-甲基胞嘧啶(5mC)及其氧化衍生物,即5-羟甲基胞嘧啶(5hmC)、5-甲酰基胞嘧啶(5fC)和5-羧基胞嘧啶(5caC)等广泛分布在基因组中,在基因组印记、染色质结构调节、转座子失活、干细胞多能性和分化、炎症及转录抑制调节中发挥着重要作用。通常,DNA甲基化检测依赖于亚硫酸氢盐转化(可损害DNA)和NGS(仅检测短期甲基化模式)相结合的方式。
Pacific Biosciences(PacBio)的单分子实时(SMRT)测序、Oxford Nanopore Technologies(ONT)的纳米孔测序第三代测序技术已经克服了读长的限制,实现了全基因组水平的超长读取、单碱基检测。SMRT测序可以基于聚合酶动力学在250x覆盖率下检测5mC修饰,但该方法无法在单分子分辨率下直接检测5mC。纳米孔测序能够通过未修饰碱基和修饰碱基的纳米孔reads产生的电流强度差异来检测DNA修饰,实现快速、长读长测序和单碱基单分子灵敏度。目前,研究人员已开发出越来越多的分析工具从纳米孔测序reads中检测DNA甲基化,但在人类全表观基因组范围内,纳米孔甲基化测序工具仍缺乏公开的指南和系统评估。
为填补这一空白,美国Jackson实验室李盛联合团队建立了第一个用于人类全表观基因组规模的纳米孔测序DNA 5mC检测的系统基准,评估了CpG甲基化预测在不同基因组环境、CpG位点覆盖范围和每个工具消耗的计算资源上的每次读取和每个位点的性能。研究团队提供了一个在线DNA甲基化数据库(https://nanome.jax.org),以显示通过纳米孔测序和亚硫酸氢盐测序(BS-seq)数据在不同基因组环境中检测到的DNA甲基化水平。该研究已发表在Genome Biology上,文章题为“DNA methylation-calling tools for Oxford Nanopore sequencing: a survey and human epigenome-wide evaluation”。
图片

文章发表于Genome Biology期刊 

目前,已有12种分析工具来利用使用ONT测序直接检测DNA甲基化,其中10种工具与R9.4系列流动槽兼容,9种工具可以预测5mC。研究人员比较了在不同CpG环境下针对5mCs的7种最先进甲基化识别工具的性能,这7种工具都与ONT流动槽版本(R9.4和R9.4.1)兼容:Nanopolish、Megalodon、DeepSignal、Guppy、Tombo、 DeepMod和METEORE。其中,Tombo是基于统计,其他6个工具是基于模型(图1)。研究人员选择Megalodon和DeepSignal结合的METEORE RF模型,为基准测试开发了三步标准化工作流程:碱基判读技术和质量控制、基因组组装和打磨、甲基化识别和评估。利用四个人类纳米孔测序数据集(NA19240、NA12878、K562、APL)进行基准测试。

图1.纳米孔测序5mC的工作流程。来源:Genome Biology 

纳米孔测序可以检测单个分子的胞嘧啶甲基化状态。在单例和非单例中,研究团队评估了7种DNA甲基化检测工具在单分子、单碱基分辨率上的单读长性能。将BS-seq作为基准,比较完全甲基化或完全未甲基化CpG上的甲基化检测性能。结果显示,Nanopolish、Megalodon、DeepSignal和Guppy在F1-score、准确率和AUC指标上都优于其他三种工具。

不同的基因组背景显示出不同的CpG密度和DNA甲基化水平,研究人员从启动子、外显子、内含子、基因间区域、CpG岛、不同CG密度的区域以及不同类型的重复区域方面评估了与生物学相关的基因组背景对5mC预测的影响。结果显示,所有7个工具在基因间区域的F1得分均低于其他任何基因区域或CpG岛;在所有CG密度区域,尤其是低CG密度区域,Tombo和METEORE都存在预测精度低的问题。与其他工具相比,Nanopolish、Megalodon、DeepSignal和Guppy在所有数据集、基因和基因间区域、重复区域和不同CG密度区域的CpG位点上始终表现出更高的F1总分,因此,这四种工具在全基因组5mC预测的单读长性能上优于其它工具(图2)。
图片

图2. 5mC预测在不同基因组背景下的单读长性能。来源:Genome Biology 

为评估这7种工具在全基因组范围甲基化水平CpG位点上的性能,研究人员评估了单碱基分辨率下,纳米孔测序和相应BS-seq数据的DNA甲基化百分比之间的Pearson相关系数。结果显示,Nanopolish、Megalodon、DeepSignal和Guppy预测的5mC百分比与对应的BS-seq数据集高度相关,DNA甲基化均呈现双峰分布(图3)。在NA19240数据中,BS-seq与DeepMod之间的Pearson相关性接近于零,证实DeepMod无法有效预测人类全基因组水平上的甲基化分布,而Nanopolish、Megalodon、DeepSignal和Guppy在NA19240数据的所有基因和基因间区域、CG密度区域和重复区域的相关系数始终最高。此外,研究发现纳米孔测序的CpG甲基化工具之间的相关性大于BS-seq与纳米孔测序数据之间的相关性,这主要是因为通过纳米孔测序可区分5hmC和5mC,实现5mC的精确检测,但BS-seq无法区分。

进一步地,研究人员评估了CpG甲基化百分比与到转录起始点或CTCF结合峰中心的距离之间的关系。与预期一致,转录起始点附近的CpG位点趋向于未甲基化,甲基化水平随着与转录起始点距离的增加而增加;DNA甲基化百分比在CTCF结合峰的中心最低。总体而言,Nanopolish、Megalodon、DeepSignal和Guppy与BS-seq的相关性较高,在全基因组水平上密切跟踪了BS-seq的甲基化模式。

图3. 5mC预测的单碱基性能。来源:Genome Biology

虽然在碱基识别和校准步骤之后所有工具的CpG位点都相同,但预测的CpG位点数量不同,因为每个甲基化识别工具都有自己的标准来进行可靠的甲基化预测。研究结果显示,与其他5个工具相比,Megalodon和DeepSignal在所有四个数据集上预测的CpG位点数量最多。通过分析每个工具的运行时间和峰值内存使用情况,发现Guppy和Nanopolish需要的CPU时间最少,峰值内存使用量也最低;DeepSignal和Tombo占用的CPU时间较多,但峰值内存较低;Megalodon占用的峰值内存较大,但CPU时间较短;METEORE和DeepMod都需要最高峰值内存和CPU运行时间。

基于上述结果,研究人员对比了7个工具各自的优缺点(图4):
第一,甲基化识别工具的选择会严重影响不同基因组区域的F1分数、准确性和AUC分数的水平。总体而言,表现最好的是Megalodon、Nanopolish、DeepSignal和Guppy。
第二,在DNA甲基化模式不一致区域、基因间区域、低CG密度区域和重复区域(即 SINE 和 LTR)检测5mCs显示所有工具都有改进的空间。
第三,Guppy和Nanopolish的内存使用率最低,对于计算资源有限的用户,推荐使用Guppy和Nanopolish进行甲基化分析;对于有权访问HPC资源或云计算资源预算较大的用户,Megalodon是最佳选择,考虑到其在更具挑战性的领域(包括重复区域和不一致的非单例)的性能,与Nanopolish和Guppy相比,它可以预测更多的CpG位点。 
在不同基因组背景下对DNA甲基化的稳健预测将有助于我们更好地理解许多生物过程背后基因调控的表观遗传机制。

图4.7种工具在不同评价体系中的表现。来源:Genome Biology

综上所述,该研究发布了纳米孔测序中检测哺乳动物全基因组DNA修饰算法的第一个系统基准,为利用纳米孔测序进行基因组表观遗传修饰检测提供了分析工具评估的研究思路,并为跨平台的标准化提供了广泛基础。
参考文献:
 Liu Y, Rosikiewicz W, Pan Z, Jillette N, Wang P, Taghbalout A, Foox J, Mason C, Carroll M, Cheng A, Li S. DNA methylation-calling tools for Oxford Nanopore sequencing: a survey and human epigenome-wide evaluation. Genome Biol. 2021 Oct 18;22(1):295. doi: 10.1186/s13059-021-02510-z. PMID: 34663425; PMCID: PMC8524990.
(1)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

关键词:,

热评文章