其它

首页 - 全部文章 - 其它 - PNAS | 新突破!卢煜明团队利用SMRT测序实现全基因组范围内胞嘧啶甲基化检测

PNAS | 新突破!卢煜明团队利用SMRT测序实现全基因组范围内胞嘧啶甲基化检测

​DNA甲基化修饰在细胞的表观遗传调控中起着非常重要的作用,其中甲基化修饰方式多种多样,最常见的是将甲基基团共价结合胞嘧啶嘧啶环的第5位,即5-甲基胞嘧啶(5mC)。亚硫酸氢盐测序(BS-seq)作为5mC的常用检测手段,其苛刻的反应条件会降解大部分DNA,导致对全局甲基化的高估;最近报道的TET辅助吡啶硼烷测序(TAPS)可以克服上述局限,但该技术涉及酶和化学反应的多个步骤,流程复杂,增加了不确定性。

检测碱基修饰的理想方法应该可以直接应用于天然DNA,且在测序之前不需要进行前处理(如DNA的任何化学/酶转化和PCR扩增)。第三代测序技术(如纳米孔测序和单分子实时测序(SMRT))使单分子实时测序成为可能,同时为探索检测碱基修饰的方法提供了机会。然而纳米孔测序检测碱基修饰结果通常伴随着较高的测序错误(如插入和缺失);相比之下,SMRT测序依赖环状DNA模板的创建,可对分子进行多次测序,从而大大提高碱基检出的准确性。

基于此,香港中文大学卢煜明教授带领团队开发了一种使用SMRT直接检测5mC的方法学,该方法对DNA聚合酶的动力学信号和测量窗口内每个核苷酸的序列背景进行了整体检查,可同时实现全基因组遗传和表观遗传分析。该项工作以“Genome-wide detection of cytosine methylation by single molecule real-time sequencing”为题发表在PNAS上。

文章发表在PNAS

首先将双链天然DNA分子与发夹适配体连接,形成拓扑环状DNA模板;然后通过发夹适配体上的互补位点将测序引物退火至环状DNA模板上;环状DNA模板与DNA聚合酶结合,形成复合物,每个复合物固定在零模波导(ZMWs)的底部;用不同的荧光染料测定碱基含量,ZMWs中的DNA聚合酶分子催化标记了不同荧光团的核苷酸进入DNA模板的互补链中;荧光标记的核苷酸发出的光脉冲信号反映了DNA聚合酶动力学;脉冲信号包括IPD(代表两个连续碱基掺入之间的持续时间)和脉冲宽度PW(代表与碱基掺入相关的荧光信号发射的持续时间),因此,适当使用脉冲信号可以确定胞嘧啶是否被甲基化。

研究者开发了一种通过脉冲信号(IPDs, PWs和序列背景)确定DNA甲基化的方法,对于CpG位点内的胞嘧啶,IPDs、PWs和围绕该胞嘧啶的序列背景被组织成数据矩阵,称为测量窗口。研究者结合了来自Watson链的CpG位点两侧的测量窗口和来自Crick链的配对CpG位点两侧的测量窗口,形成了一个用于下游分析的组合测量窗口。然后利用来自甲基化和非甲基化胞嘧啶的组合测量窗口来训练卷积神经网络(CNN)。最后训练好的CNN模型将用于区分测试样本中甲基化和未甲基化的胞嘧啶(图1)。这种5mC检测的分析框架被称为“整体动力学(HK)模型”。HK模型包括输入层、卷积层和输出层。来自每个测量窗口的HK模型所需的数据被输入至输入层,然后由卷积层处理。

图1. 使用单分子测序和HK模型的5mC检测原理图,来源:PNAS

为了证明HK模型以全基因组方式确定甲基化状态的可行性和性能,研究者使用SMRT测序数据集(包括未甲基化数据集和甲基化数据集)对该模型进行训练和验证(图2)。未甲基化数据集包含通过全基因组扩增(WGA)制备的扩增DNA测序结果;甲基化数据集包含经M.SssI(一种CpG甲基转移酶)处理的DNA的测序结果。分别使用Sequel Sequence Kit 1.0、Sequel Sequence Kit 2.0和Sequel Sequence Kit 3.0来评估HK模型,结果显示,对于三个测试数据集,基于HK模型的AUC值(0.93到0.97)远远大于基于CpG位点的IPD或PW值的AUC值(0.53到0.67),表明HK模型可以准确地确定甲基化状态,适用于不同测序试剂盒和测序仪,且其性能大大优于传统方法

图2. 使用扩增的DNA和M.SssI处理的DNA生成的数据集,对HK模型进行训练和验证,来源:PNAS

接下来,研究者又分别探究了测量窗口大小,子读深度及序列背景对5mC检测性能的影响。通过改变不同的窗口大小及不同的子读深度,对来自WGA和M.SssI处理的数据集进行HK模型训练测试。结果显示调整测量窗口大小和子读深度可以提高HK模型的性能,在窗口大小为21 nt,子读深度为30 X时,甲基化胞嘧啶和未甲基化胞嘧啶的区分能力达到了一个平台期,AUC值为0.96。为了平衡适合下游分析的分子数量和准确性,该研究中采用了21nt的窗口大小和至少10 X的子读深度作为默认设置。之后,研究者又随机抽取了不同序列背景,进一步研究序列背景数量对HK模型性能的影响,结果显示随着序列背景数量的增加,HK模型的性能逐步提高,这可能是由于在SMRT测序过程中,许多序列背景对DNA聚合酶的动力学特征产生了类似的影响。

由于上述验证过程依赖于经过WGA和M.SssI处理的DNA样品,这些样品在理论上均是甲基化或未甲基化片段,因此,研究者测试了HK模型是否可以推广到具有不同甲基化状态的片段(即同时含有甲基化和未甲基化的CpG位点的片段)。为此,研究者基于限制性内切和DNA连接生成了人鼠杂交片段的两个数据集,分别为人类(甲基化)-小鼠(未甲基化)数据集和人类(未甲基化)-小鼠(甲基化)数据集。使用Sequel II测序仪及Sequel Sequence Kit 1.0进行测序,应用HK模型来确定人类(甲基化)-小鼠(未甲基化)数据集中每个人-鼠杂交DNA分子的CpG位点的甲基化状态。结果显示该数据集中的人类部分显示甲基化(85.9至93.0%),而小鼠部分显示为未甲基化(6.7至9.6%)。在人类(未甲基化)-小鼠(甲基化)数据集中发现了相反的模式。此外,研究者评估了相邻CpG位点之间的潜在相互作用对HK模型性能的影响,结果表明,即使甲基化状态不同,HK模型也可以很好地破译DNA分子中每个CpG位点的甲基化(图3)。 

图3. 人-鼠杂交片段甲基化模式分析,来源:PNAS

为进一步验证HK模型是否可以用于分析真实的生物样本,研究者使用Sequel II测序仪及Sequel Sequence Kit 1.0对11个组织DNA样本进行了测序,每个样本也通过BS-Seq进行了测序,通过Methy-Pipe软件确定跨CpG位点的甲基化状态。比较了HK模型和BS-seq两种方法的总体甲基化水平,结果显示HK模型分析的所有样本的整体甲基化水平与BS-seq量化的甲基化水平有很好的相关性,胎盘DNA、肝癌组织DNA、HepG2细胞DNA甲基化水平(48.4%—58.4%)低于癌旁组织DNA和白细胞层DNA甲基化水平(69.0%—75.7%),与前人研究一致,这进一步表明HK模型对于区分来自不同生物样本的天然DNA分子中甲基化和去甲基化胞嘧啶的稳健性。此外,研究者还进一步分析了1 Mb分辨率下的甲基化水平,Circos图显示由HK模型推导的1-Mb基因组之间的甲基化水平与BS-seq测定的甲基化水平曲线高度一致,并且在HK模型确定的结果中观察到了转录起始位点区域周围甲基化水平的“山谷模式”,这在BS-SEQ结果中得到了证实(图4)。

图4. BS-seq和HK模型在1-Mb分辨率下量化甲基化水平,来源:PNAS

为了比较单碱基分辨率下的相关性,研究者计算了样本BC01的SMRT-seq和BS-seq结果中至少20个测序分子所覆盖的每个CpG位点的甲基化水平,根据CpG位点的数量,使用平滑散点图来可视化由HK模型和BS-seq推导出的甲基化水平之间的相关性。结果显示与CpG island(CGI)区域重叠的分子部分主要确定为未甲基化,而CGI区域以外的分子部分则倾向于甲基化,这些不同的模式在BS-seq 结果中得到了确认;此外,HK模型可以提供完整的基因型信息,包括A,C,G和T和CpG二核苷酸处的甲基化状态,而BS-seq的基因型信息主要局限于A,G和T(图5)。

图5. 单碱基分辨率下的甲基化模式,来源:PNAS

DNA甲基化对于在父系或母系等位基因上建立印记标记非常重要,通常表现为等位基因甲基化模式。研究者选用了四个有代表性的印记基因SNURF、PLAGL1、NAP1L5和ZIM2,应用HK模型来确定样本BC01中与这四个印记基因重叠的分子的甲基化状态, SNURF显示了跨越15号染色体上从25,200,004到25,201,976的已知印记控制区的等位基因特异性甲基化模式;在非印迹区域,通常不能观察到等位基因之间的差异甲基化模式;与非印迹区域相反,所有四个印迹基因在两个等位基因之间都有不同的甲基化区域(图6)。

图6. 来自印记区域的每个单分子的甲基化模式,来源:PNAS

综上所述,研究者开发了一种综合利用动力学信号和序列背景的方法,通过SMRT测序实现了全基因组范围内胞嘧啶甲基化的检测。该方法可以破译人类基因组中的5mC模式,并阐明长DNA分子的甲基化状态。相信在未来基于HK模型的甲基化分析将为研究不同生物的遗传学和表观遗传学开辟更多新的可能性。

参考文献:

Tse OYO, Jiang P, Cheng SH, Peng W, Shang H, Wong J, Chan SL, Poon LCY, Leung TY, Chan KCA, Chiu RWK, Lo YMD. Genome-wide detection of cytosine methylation by single molecule real-time sequencing. Proc Natl Acad Sci U S A. 2021 Feb 2;118(5):e2019768118. doi: 10.1073/pnas.2019768118. PMID: 33495335.

(0)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

关键词:

热评文章