检测碱基修饰的理想方法应该可以直接应用于天然DNA,且在测序之前不需要进行前处理(如DNA的任何化学/酶转化和PCR扩增)。第三代测序技术(如纳米孔测序和单分子实时测序(SMRT))使单分子实时测序成为可能,同时为探索检测碱基修饰的方法提供了机会。然而纳米孔测序检测碱基修饰结果通常伴随着较高的测序错误(如插入和缺失);相比之下,SMRT测序依赖环状DNA模板的创建,可对分子进行多次测序,从而大大提高碱基检出的准确性。
文章发表在PNAS上
研究者开发了一种通过脉冲信号(IPDs, PWs和序列背景)确定DNA甲基化的方法,对于CpG位点内的胞嘧啶,IPDs、PWs和围绕该胞嘧啶的序列背景被组织成数据矩阵,称为测量窗口。研究者结合了来自Watson链的CpG位点两侧的测量窗口和来自Crick链的配对CpG位点两侧的测量窗口,形成了一个用于下游分析的组合测量窗口。然后利用来自甲基化和非甲基化胞嘧啶的组合测量窗口来训练卷积神经网络(CNN)。最后训练好的CNN模型将用于区分测试样本中甲基化和未甲基化的胞嘧啶(图1)。这种5mC检测的分析框架被称为“整体动力学(HK)模型”。HK模型包括输入层、卷积层和输出层。来自每个测量窗口的HK模型所需的数据被输入至输入层,然后由卷积层处理。
图1. 使用单分子测序和HK模型的5mC检测原理图,来源:PNAS
为了证明HK模型以全基因组方式确定甲基化状态的可行性和性能,研究者使用SMRT测序数据集(包括未甲基化数据集和甲基化数据集)对该模型进行训练和验证(图2)。未甲基化数据集包含通过全基因组扩增(WGA)制备的扩增DNA测序结果;甲基化数据集包含经M.SssI(一种CpG甲基转移酶)处理的DNA的测序结果。分别使用Sequel Sequence Kit 1.0、Sequel Sequence Kit 2.0和Sequel Sequence Kit 3.0来评估HK模型,结果显示,对于三个测试数据集,基于HK模型的AUC值(0.93到0.97)远远大于基于CpG位点的IPD或PW值的AUC值(0.53到0.67),表明HK模型可以准确地确定甲基化状态,适用于不同测序试剂盒和测序仪,且其性能大大优于传统方法。
图2. 使用扩增的DNA和M.SssI处理的DNA生成的数据集,对HK模型进行训练和验证,来源:PNAS
接下来,研究者又分别探究了测量窗口大小,子读深度及序列背景对5mC检测性能的影响。通过改变不同的窗口大小及不同的子读深度,对来自WGA和M.SssI处理的数据集进行HK模型训练测试。结果显示调整测量窗口大小和子读深度可以提高HK模型的性能,在窗口大小为21 nt,子读深度为30 X时,甲基化胞嘧啶和未甲基化胞嘧啶的区分能力达到了一个平台期,AUC值为0.96。为了平衡适合下游分析的分子数量和准确性,该研究中采用了21nt的窗口大小和至少10 X的子读深度作为默认设置。之后,研究者又随机抽取了不同序列背景,进一步研究序列背景数量对HK模型性能的影响,结果显示随着序列背景数量的增加,HK模型的性能逐步提高,这可能是由于在SMRT测序过程中,许多序列背景对DNA聚合酶的动力学特征产生了类似的影响。
图3. 人-鼠杂交片段甲基化模式分析,来源:PNAS
为进一步验证HK模型是否可以用于分析真实的生物样本,研究者使用Sequel II测序仪及Sequel Sequence Kit 1.0对11个组织DNA样本进行了测序,每个样本也通过BS-Seq进行了测序,通过Methy-Pipe软件确定跨CpG位点的甲基化状态。比较了HK模型和BS-seq两种方法的总体甲基化水平,结果显示HK模型分析的所有样本的整体甲基化水平与BS-seq量化的甲基化水平有很好的相关性,胎盘DNA、肝癌组织DNA、HepG2细胞DNA甲基化水平(48.4%—58.4%)低于癌旁组织DNA和白细胞层DNA甲基化水平(69.0%—75.7%),与前人研究一致,这进一步表明HK模型对于区分来自不同生物样本的天然DNA分子中甲基化和去甲基化胞嘧啶的稳健性。此外,研究者还进一步分析了1 Mb分辨率下的甲基化水平,Circos图显示由HK模型推导的1-Mb基因组之间的甲基化水平与BS-seq测定的甲基化水平曲线高度一致,并且在HK模型确定的结果中观察到了转录起始位点区域周围甲基化水平的“山谷模式”,这在BS-SEQ结果中得到了证实(图4)。
图4. BS-seq和HK模型在1-Mb分辨率下量化甲基化水平,来源:PNAS
图5. 单碱基分辨率下的甲基化模式,来源:PNAS
DNA甲基化对于在父系或母系等位基因上建立印记标记非常重要,通常表现为等位基因甲基化模式。研究者选用了四个有代表性的印记基因SNURF、PLAGL1、NAP1L5和ZIM2,应用HK模型来确定样本BC01中与这四个印记基因重叠的分子的甲基化状态, SNURF显示了跨越15号染色体上从25,200,004到25,201,976的已知印记控制区的等位基因特异性甲基化模式;在非印迹区域,通常不能观察到等位基因之间的差异甲基化模式;与非印迹区域相反,所有四个印迹基因在两个等位基因之间都有不同的甲基化区域(图6)。
图6. 来自印记区域的每个单分子的甲基化模式,来源:PNAS
综上所述,研究者开发了一种综合利用动力学信号和序列背景的方法,通过SMRT测序实现了全基因组范围内胞嘧啶甲基化的检测。该方法可以破译人类基因组中的5mC模式,并阐明长DNA分子的甲基化状态。相信在未来基于HK模型的甲基化分析将为研究不同生物的遗传学和表观遗传学开辟更多新的可能性。
Tse OYO, Jiang P, Cheng SH, Peng W, Shang H, Wong J, Chan SL, Poon LCY, Leung TY, Chan KCA, Chiu RWK, Lo YMD. Genome-wide detection of cytosine methylation by single molecule real-time sequencing. Proc Natl Acad Sci U S A. 2021 Feb 2;118(5):e2019768118. doi: 10.1073/pnas.2019768118. PMID: 33495335.
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!