表观组学研究滞后于基因组学是可以理解的。一方面,在分析碱基修饰或染色体活性之前,我们需要知道基因组的确切序列,即得到基因组的参考序列,在这个基础之上基因组的表观调控研究才能得以进行;另一方面,造成表观组学研究发展相对缓慢的一个重要原因,是目前支撑表观组学研究的技术手段都或多或少存在一定的局限性,限制了研究人员的思路;比如在DNA甲基化研究中,基于化学试剂-亚硫酸氢盐(BS)处理的转化技术仍然是该领域研究的主要方法,然而该技术产生的一系列问题(样本质量要求高,序列偏好等)也极大的影响了甲基化标志物在临床上的转化。
图1:拟南芥和人类基因组甲基化图谱的部分研究成果
接下来,我们先和大家分享一个多年前关于拟南芥甲基化研究的故事[1],其中,DNA甲基化测序技术所暴露出的问题,也将为目前液体活检等领域的应用提供借鉴和指导。因此,通过本文,希望各位在将来的精准医学实践过程中可以躲过这些“坑”。
随着二代测序技术的发展,DNA甲基化研究取得了丰硕的成果。2010年前后,科学家们破解了多个物种的甲基化图谱,其中就包括植物模式生物-拟南芥(图1)。2011年,Science杂志报道了Joseph R. Ecker团队关于拟南芥甲基化自然突变频率的研究[2],该论文的第一作者是Robert J.Schmitz;然而,通过比较WGS(全基因组测序)和WGBS(全基因组甲基化测序)的数据,当Robert J.Schmitz团队回顾论文数据时,他们惊讶的发现(小编估计Robert J.Schmitz当时后背肯定湿了),凡是具有高甲基化水平的基因组区域都伴随着更高的测序深度,即甲基化状态的DNA会在文库中富集(图2)。要知道,从2008年开始,CNS发表了多篇基于WGBS技术的研究论文。这下问题严重了!这些测序偏好会不会得到一些甲基化水平的假象,从而得出错误的结论?甚至或是全面否定前期的研究结果?那么,到底是什么原因导致了这一现象的发生?
图2:拟南芥3号(图2A)和5号(图2B)染色体部分区间的甲基化水平与测序深度相关性(修改自[1])
Robert J.Schmitz团队将焦点放到了BS处理上, BS处理后,未甲基化的C会转化为U,而甲基化状态的C则保持不变;该过程会导致基因组序列组成发生天翻地覆的改变。举一个例子,对于G含量20%、C含量20%,且所有C无甲基化修饰的DNA片段,在BS处理后,C转化为T,所以GC含量急剧下降为20%,AT含量高达80%。Robert J.Schmitz团队分析了之前的数据,并印证了他们的推测,如图3所示,拟南芥第5号染色体的高甲基化区域都呈现更高的GC含量,并伴随着更高的测序深度[3、4]。所以,Robert J.Schmitz团队认为,在拟南芥中, 相对于非甲基化的DNA,BS处理以及PCR扩增后仍然保持高GC的高甲基化DNA片段更容易被扩增,并最终表现为在测序数据中更多的被检测到。
图3A:BS处理导致DNA碱基组成剧烈变化;图3B:拟南芥5号染色体甲基化水平与测序Reads覆盖度相关性[1]
其实,早在1997年,Nucleic Acids Research杂志就发表了一项关于PCR扩增检测DNA甲基化水平的偏好研究[5]。该研究指出对于某些序列,PCR扩增过程会产生偏倚,从而导致对甲基化丰度评估不准确;而且,PCR反应的偏好是序列相关的,往往还是链特异的(图4)。所以,用于制备WGBS测序文库的聚合酶以及文库富集时的循环数就变得尤为重要。
图4:利用BS-PCR技术检测已知甲基化水平的人类Rb基因启动子,图4A和图4B分别为正负链的甲基化偏倚(修改自[5])
常规的DNA聚合酶是不具备扩增含有U碱基模板(BS处理后)的能力的。研究发现,在70℃~103℃下生存的火球菌(Pyrococcus furiosus)具有一种特殊的DNA聚合酶,它可以结合脱氨基碱基,再经蛋白工程改进后,可用于BS处理后DNA的扩增(图5),目前市面上已有较多商业化的产品。
图5A:火球菌形态[10];图5B:Pfu聚合酶的工程学改造[6]
接下来Robert J.Schmitz团队系统的比较了不同商业化聚合酶以及PCR循环数对甲基化水平与测序深度相关性以及GC含量的影响。如图6A所示,分别利用Kapa HiFi Uracil+(Kapa Biosystems)、Pfu Turbo Cx (Agilent Technologies)和 EpiMark(New England Biolabs)三种DNA聚合酶对野生型拟南芥基因组构建的WGBS文库进行扩增。随着扩增循环数的增加,三种聚合酶对高甲基化区域的测序深度的偏好都逐渐加剧(图6B),但与其他两种聚合酶不同的是,Kapa HiFi Uracil+对GC含量没有明显偏好(图6C),表明这种聚合酶具有广泛应用于甲基化测序的潜力。综上所述,这些结果证明聚合酶和PCR循环数对于WGBS文库数据可靠性具有非常重要的意义。
图6A:实验设计示意图;图6B:Pfu Turbo Cx聚合酶甲基化水平与测序深度的相关性随着PCR循环数的增加而加强;图6C:增加PCR循环对聚合酶的GC偏好的影响(图6B、6C修改自[1])
除了DNA甲基化测序,Robert J.Schmitz团队还关注了ChIP–seq数据,他们又得到了与之前研究截然不同的结果。在2012年,Michael A.Quail团队对P. falciparum(AT-rich) 进行全基因组测序时发现,Kapa HiFi聚合酶得到的测序数据与PCR-free的测序表现最为接近,表明这种聚合酶的扩增均匀性好,偏好较低(如图7A所示)。但是,当Robert J.Schmitz团队测试Kapa HiFi聚合酶和循环数对ChIP–seq数据的影响时发现,其表现并没有预期优异(图7B)。他们认为AT-rich的序列在NGS测序中会丢失。
当然,两个实验使用了不同的基因组(P. falciparum vs Neurospora crassa)和不同的测序方法(WGS vs ChIP-seq),可比较性比不是特别强,不过这也从侧面说明目前的NGS技术还有很多方面可以改进。
图7A:不同聚合酶与PCR-free文库的覆盖度比较(窗口显示了P. falciparum 3D7 的1号染色体上GC rich的端粒区域[7]);图7B:Kapa HiFi聚合酶与Illumina Truseq kit的GC偏好比较[1]
总而言之,对于依赖测序深度均匀性的检测方法,基因组的碱基组成是关键因素,PCR聚合酶和PCR循环数的选择仍然是影响最为深远的一环。所以,放弃PCR,通过PCR-free的方式制备文库成为解决测序数据覆盖偏好的重要方法,但是对于基于BS技术的甲基化测序来说,由于并不确定Illumina测序平台是否能容忍U碱基,PCR-free的甲基化技术可行性不高。
那么,如何降低甲基化测序偏好?Robert J.Schmitz团队提到:“可以利用已知甲基化水平的标准品对测序结果进行矫正[8]或是利用数字PCR技术[9],但是这两种方法并不能简便的与WGBS技术兼容;此外,还可以参考SNP的数据进行矫正。毫无疑问,他们的研究结果表明,如果之前研究没有意识到这些偏好性,研究人员对于甲基化水平的判定肯定会受到影响;其中,杂合状态的甲基化位点的判读受到的影响更大。为了降低WGBS的偏好性,可以投入更多的DNA 、降低PCR循环数并优化DNA聚合酶”。
再强调一下,杂合状态的甲基化位点的判读受到的影响更大,细思极恐(小编现在后背已经湿了),这意味什么?现在正如火如荼开展的ctDNA甲基化研究中,ctDNA特异的甲基化信号在cfDNA背景中就是杂合状态,而且是以较低的频率呈现,上述偏好如果使得某些甲基化状态的ctDNA在数据中丢失将是非常可怕的事情,尤其是在CpG岛这种GC含量本来就不正常,但又是甲基化修饰热点的区域。
根据Robert J.Schmitz团队提供的三点建议,我们来分析一下如何提高ctDNA甲基化检测的准确性。首先,通过采集更多的血浆来增加DNA input显然不现实;其次,cfDNA的量本来就很低,在纳克级别,研究人员往往需要增加PCR循环数来使文库浓度达到上机测序的要求,对于cfDNA甲基化检测来说,降低文库富集的PCR循环数也是困难重重。
上文提到的两点建议都被否定后,我们将目光放到DNA聚合酶上。Robert J.Schmitz团队的研究结果[1]表明,Kapa HiFi Uracil+聚合酶表现非常突出,不但扩增效率最高(具有降低PCR循环数的潜力),而且对模板的GC含量没有明显偏好性,但随着PCR循环数的增加,它还是会产生其他偏好,比如DNA的甲基化程度升高导致测序深度降低;所以,我们还需要继续通过蛋白工程学手段来优化DNA甲基化检测的聚合酶。
通过上文的介绍,我们了解到仅仅是文库的富集环节已经会对甲基化检测产生如此之大的影响;除此之外,cfDNA的采集,保存,抽提,甲基化文库的构建、测序仪平台以及后期数据分析的技术局限都会影响甲基化检测的准确性;所以,甲基化标志物的临床转化可能还有较长的一段路要走。
不过,罗马也不是一天就建好了,就拿目前已经获得广泛认可的基于NGS测序平台(WGS)的NIPT来说,他也是经历了十多年的探索。卢煜明教授早在1997年就发现了cffDNA,但十年后与NGS技术的结合才迎来了真正的临床转化契机;期间,qPCR,ddPCR等技术在NIPT的检测中的表现都不如NGS理想,之后,又经历了多年的临床试验,才得到更广泛的认可。
2017年,甲基化标志物在肿瘤无创诊断方面的研究取得了巨大的进展,甲基化修饰信号在体外诊断或是疾病治疗领域一定会发挥重要的作用,我们还需要更多的努力和耐心,并时刻保持对技术的谨慎。
参考资料:
1. Methylated DNA is over-represented in whole-genome bisulfite sequencing data.
2. Transgenerational Epigenetic Instability Is a Source of Novel Methylation Variants.
3. Shotgun bisulfite sequencing of the Arabidopsis genome reveals DNA methylation patterning.
4. Highly integrated single-base resolution maps of the epigenome in Arabidopsis.
5. Detection and measurement of PCR bias in quantitative methylation analysis of bisulphite-treated DNA.
6. A one-step method for quantitative determination of uracil in DNA by real-time PCR.
7 . Optimizing illumina next-generation sequencing library preparation for extremely at-biased genomes.
8 . Correction of PCR-bias in quantitative DNA methylation studies by means of cubic polynomial regression.
9. Application of microdroplet PCR for large-scale targeted bisulfite sequencing.
10.https://en.wikipedia.org/wiki/Pyrococcus_furiosus#/media/File:Pyrococcus_furiosus.png
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!