图:S. Bradbrook/NPC
ctDNA来源于癌细胞,它们携带着三种肿瘤分子标志物:碱基突变、拷贝数异常以及甲基化变异。科学家对这三种标志物寄予厚望,他们希望在血液中监测这些肿瘤标志物的信号变化,更早发现癌症踪迹,料敌于先,实现癌症早筛。
为了实现这一目标,ctDNA碱基突变是首先遭到科学家“围剿”的标志物,由于ctDNA在cfDNA中占比较低,这类技术实质上是在检测低频突变。在过去的七八年时间里,研究人员各显神通,为我们呈现了一场精彩纷呈、蔚为壮观的技术盛宴(图1)。这些技术基本上基于两种技术平台:PCR和杂交捕获。PCR技术小、快、灵,实验周期短,但覆盖范围较小;杂交捕获技术流程稍显繁琐,同时具有更高的背景噪音(杂交过程),但非常适合超多重靶标检测。此外,单分子标签也是“护身神器”,降噪必备。这些技术经研发工程师的妙手之后,都发挥出惊人的能量。
图1:液体活检中的多种低频突变检测技术
例如,基于探针杂交捕获原理的iDES技术,由CAPP-seq发展而来,可以检测到频率低至4/100000的ctDNA,该技术对非小细胞肺癌的诊断灵敏度和特异性分别为92%和96%[1]。又如,基于PCR的Safe-seq技术,由Bert Vogelstein教授实验室于2011年首次报道[2],2018年,Safe-seq联合蛋白标志物用于早期癌症诊断,对不同癌种达到了69%~98%的灵敏度和99%的特异性[3]。
然而,由于生物学方面的限制,比如克隆性造血,我们很难判断某个基因突变真的就来自癌细胞(图2);此外,仅仅通过ctDNA的突变信息,我们并不能推断出肿瘤的生长部位。所以,这类标志物更适用于癌症精准治疗和管理,对于癌症早筛来说还是有些勉强。
图2:分别采用内部或外部突变参考均无法区分点突变来源(图片选用自[4])
那么,如何实现ctDNA癌症早筛的宏伟目标?所有的目光自然就落到了“独苗”——ctDNA甲基化标志物上。这些大量存在于基因组上、呈高密度聚集状态分布的化学基团也很争气,它们更具天赋,比如,具有组织特异性,可追溯肿瘤来源;成簇分布,形成的信号和条形码几乎一模一样,较碱基突变的特异性更高;标志物数量更多,少则几百多则上万,更加灵敏。
那么,到底该如何兑现这些优势?这个问题倒是把科学家难坏了!Bisulfite破坏力十足,微克级别的gDNA都不够它“祸害”的,更别说纳克级别的cfDNA。正因如此,去年的两项ctDNA甲基化重磅研究中,RRBS测序深度在5x左右,BSPP给出的描述是20x以上(表1)。即便如此,甲基化标志物还能有如此灵敏的检测效果,小编只能感叹这是纯靠天赋碾压啊(标志物数量和灵敏度)!相比低频突变检测的1000x,10000x来说,ctDNA甲基化测序深度优化的空间还很大,我们还能做得更好。
表1:ctDNA甲基化检测灵敏度还有提升空间
正在技术要劲的紧要关头,NGS单链建库技术及时出现了[10],这对于肿瘤甲基化标志物研究来说,真的是雪中送炭(查看文章:“成败BS”和“WGBS获新生”)。
此时此刻,ctDNA甲基化标志物的研究形势让人有了“穿越”的感觉,像是回到了多年前的ctDNA点突变研究,概念验证基本完成、主要技术瓶颈突破,大规模临床研究蓄势待发!可以预见,在接下来的几年,围绕肿瘤甲基化标志物的筛选和验证工作,液体活检领域或将迎来新一轮的技术大爆发。那么,哪些甲基化技术更具潜力,更加符合ctDNA甲基化标志物的研究需要呢?接下来,小编从肿瘤DNA甲基化标志物的高通量筛选以及在cfDNA样本中的大规模验证两个方面,为大家简要的盘点一下目前的甲基化检测技术。
首先,我们先来了解一下用于甲基化标志物筛选的NGS技术。如表2所示,我们有覆盖所有甲基化位点的WGBS技术,此外还有两种覆盖~10% 甲基化位点的“CpG Panel”,一种是基于探针杂交的捕获平台(简称:甲基化捕获),比如Roche SeqCap Epi CpGiant Kit、Agilent SureSelect MethylSeq Kit,另一种CpG Panel是基于MspI酶切的RRBS(Reduced representation bisulfite sequencing,RRBS),它所覆盖的CpG位点由酶切位点“CCGG”决定,随着片段分选大小动态变化。三种技术都可以达到单碱基分辨率并同时获得单个分子的甲基化模式,所以,更有利于后期验证阶段的工作。
表2:测序技术可以获得更加清晰的肿瘤特异甲基化信号,甲基化芯片(Array)提供相对甲基化水平(左图);WGBS、甲基化捕获以及RRBS测序技术的基本参数(表2 [13] )
毫无疑问,在这三个技术中,WGBS是最好的筛选方法,它可检测所有CpG位点,现在,一直被病诟的有效数据率低的问题已经得到极大改善[10]。这不,Grail已经在癌症早筛临床试验中大胆(任性)启用,但测序费用还是有点小心疼。
相比之下,甲基化捕获和RRBS性价比更高,仅使用WGBS测序数据的1/3,就可以达到100x左右的平均深度[7、11]。如表2所示,Roche SeqCap Epi覆盖的CpG位点数最多(5.5 M),Agilent SureSelect MethylSeq Kit其次(3.7 M,~13%),RRBS为总CpG的8%~10%(与片段分选的长度相关)。由于RRBS流程中少了一步杂交捕获(表2,Capture kit cost),其成本最低,也是研究人员较常使用的方法。
不过,值得注意得是,RRBS对甲基化位点的覆盖比较依赖于DNA的完整度和片段分选技术,所以测序时实际覆盖的位点与预期会有较大差距(图3A),在不同样本中的一致性也会受到影响;此外,有研究显示,ERRBS数据对生物学意义更为明确的CpG岛、启动子等区域覆盖较甲基化捕获略少,可能在实践中大家需要留意(图3B)。
图3: WGBS、甲基化捕获以及RRBS在测序20~30Gb时检测到的CpG数量(A)以及CpG位点在基因组上的位置分布(B)[7]
综合来看,上面提到的三种技术基本上旗鼓相当,将形成并驾齐驱之势。WGBS覆盖所有甲基化位点同时成本最高;甲基化捕获比WGBS成本更低,较RRBS数据更稳定;RRBS成本最低也可以覆盖大量甲基化位点,就看研究人员根据实际情况如何权衡了。
通过比较肿瘤和正常组织的甲基化图谱,筛选出肿瘤特异的候选甲基化标志物后,就该进入标志物在血浆中的验证阶段了,靶向测序可以节约成本并提升灵敏度;那么,在ctDNA点突变检测中建功立业的两个靶向测序平台,PCR和杂交捕获,他们在甲基化靶向测序中会有怎样的表现呢?
对于PCR来说,如何有效的进行超多重靶标扩增是主要瓶颈,即使是开展上万重的基因组扩增子测序也是非常具有挑战性的工作,更别说针对Bisulfite转化后序列的多重甲基化PCR。先前有过报道,使用微滴技术进行单分子BS-PCR,可以同时检测九千个左右的靶标,但是起始量较高,需要2μg DNA[8]。2015年,Lu Wen等研究人员巧妙地利用CpG岛的特征序列作为引物结合位点,开发了基于PCR技术的MCTA-seq[15],可以同时检测大量CpG岛区域的甲基化信号,该技术极其灵敏,能够对7.5 pg的gDNA进行检测,不过,MCTA-seq更像是一种固定的CGI Panel,作为靶向测序平台,灵活性稍显不足。充分放大信号以及单分子扩增是未来技术开发的方向(图4),我们也希望可以尽快获得多重甲基化PCR技术的助力。
图4:cfDNA经全基因组甲基化扩增后进行数字PCR示意图
接下来我们详细剖析一下标志物选择更加灵活,可以“个性化定制”的甲基化捕获技术。先不谈甲基化检测,从应用方面看,研究人员对杂交捕获技术的一方面担忧是捕获时间较长,这会引发两个问题,一是背景突变噪音增加;二是检测周期较长。面对这些急需解决的问题,在过去的几年时间里,我们也可以看到平台开发人员为之付出的努力。Illumina早已将二次杂交压缩为一次(Exome),Roche也将长达2-3天的杂交时间缩减至24hr甚至更少(Exome/Methylation),如下图5所示,经过优化,Roche SeqCap Epi可以在16-24hr的杂交时间中完成高质量的甲基化捕获,均一性和平均深度未受影响(9Gb、~55x、>20x≈87%)[9]。同时,研究人员利用单分子标签已经很好的解决了背景突变的问题[1],这个技术也可以完美的复制到甲基化捕获中。所以,杂交时间过长的问题算是解决了。
图5:经过优化,Roche SeqCap Epi CpGiant的杂交时间大幅降低,捕获表现未受影响
对于cfDNA的甲基化靶向捕获技术来说,标志物数量倒不是主要瓶颈,目前的商业化试剂盒均可以同时检测几百万个甲基化位点,最大的阻碍仍然是如何高效的利用有限的cfDNA分子。
由于Bisulfite转化会导致DNA序列极端改变、所以甲基化捕获形成了两个技术路线,分别是Pre-BS Capture和Post-BS Capture,它们主要的区别在于探针设计,前者捕获正常基因组,后者针对BS转化后的序列。Pre-BS Capture其实是出于简化探针设计考虑,非常巧妙的在BS转化前对预文库进行捕获,这时基因组的碱基多样性,Tm值,GC含量都相对正常(图6),如此就可以有效地避开BS转化对序列的极端改造。
图6:Pre-BS与Post-BS Capture技术流程以及探针设计示意图
对于大量的gDNA来说,这种设计不会对检测有什么影响,但是一旦应用到只有数千个基因组拷贝的cfDNA时,这种设计的隐患就凸显出来了。由于目前的PCR技术是不能复制C碱基的甲基化修饰的,所以,Pre-BS Capture在捕获前是不能进行PCR富集的(PCR-free),正是由于缺少预文库扩增的信号放大过程,可能会导致模板丢失,这将会直接影响检测灵敏度(图7)。进一步优化的话,我们可能需要等待耐热、高保真、高特异性的甲基转移酶的出现,帮助实现Pre-BS Capture在捕获前的文库富集。
图7:PCR扩增放大信号,对于cfDNA捕获来说极为关键
另一个技术路线,Post-BS Capture的探针设计针对BS转化后的序列,BS处理后,基因组序列丰富度下降,探针特异性不易保证,Tm值和GC含量也都极为变态(图6),所以,设计难度更大。不过,Post-BS Capture的杂交是在Bisulfite转化之后,所以,在杂交之前可以进行PCR扩增,充分放大信号,保证后续的高质量捕获。在今年的AGBT会议中,也有关于Post-BS Capture应用于甲基化靶向捕获的初步数据释放,如图8所示,利用KAPA Hyper建库试剂盒以及Roche SeqCap Epi CpGiant甲基化捕获试剂盒对10-40 ng cfDNA进行甲基化靶向测序,平均深度达到5-19 x,对于一个覆盖5.5M CpG位点的大型Panel来说,这是一个令人鼓舞的开端,进一步优化的话,单链建库也许是一个优化方向;从信号放大、超多重靶点捕获等等优势看来,Post-BS Capture或将更为广泛的应用于cfDNA甲基化研究[11]。
图8: Post-BS Capture技术对cfDNA开展超多重甲基化靶点检测的初步数据[9]
需要强调的是,由于甲基化检测完全不同于低频突变检测,在Post-BS Capture技术平台上,如何进一步提高ctDNA甲基化的检测灵敏度仍然需要探索;商业化试剂盒中,以Roche SeqCap EpiCpGiant(NGS)和illumina Infinium 450K/850K BeadChip (甲基化芯片)为主要代表,由于液相捕获以及探针合成技术的独特优势,其中Roche探针的设计理念更为先进、考虑更加全面。最后,小编班门弄斧,借鉴Roche SeqCap EpiCpGiant的“双链捕获”以及检测所有甲基化模式的“穷尽法”设计,为大家简单介绍一下提高ctDNA甲基化检测灵敏度的几个可能方向。
甲基化捕获与基因组捕获相比主要有两点差异,第一点差异依然是来自BS处理后的序列变化,经BS转化后,互补的DNA双链变为截然不同的两条链,同时,绝大多数甲基化位点都呈现对称分布[14],也就是说,正负双链都具有检测意义,但序列已经不再互补;如果还按照外显子捕获的思路,只捕获其中一条链的话,其实是丢失了一半的模板(图9)。所以,Roche SeqCap EpiCpGiant探针对正负双链都设计了对应的捕获探针,几乎可以增加100%的可用分子,对于“每条必争“的液体活检来说,检测灵敏度将会得到有效提升。
图9:Genome Capture:PCR富集后只需针对正链或负链设计探针,便可有效捕获原始双链分子信息;Methylation Capture:Bisulfite转化后,正负两条链不再互补,双链捕获可大幅提升ctDNA捕获效率
第二点差异,数量庞大的甲基化单倍型。甲基化位点高密度聚集存在时,不同甲基化状态的组合将会成指数增加。非常像是基因组上的多个SNP位点形成的单倍型,只不过它们都汇集到了一起。这就是甲基化单倍型信号的优势,但要覆盖所有可能的单倍型组合,对于技术来说难度就太大了。Roche SeqCap EpiCpGiant的做法是穷尽所有可能,设计海量探针。这种近乎于疯狂的探针设计带来的好处也非常明显,即不遗漏任何可能的ctDNA甲基化单倍型(图10)。好吧,小编对这种设计没有过多的语言,大家就当是了解了一种解决办法。如果是小编的话,就只能祈祷在标志物筛选时已经准确知道了肿瘤具有的可能的几种单倍体信号,这样就不用“海选”了(玩笑);应对肿瘤异质性以及背景更为复杂的甲基化信号,Roche的设计确实值得借鉴。
图10:“穷尽法”探针设计保证ctDNA甲基化单倍型捕获无死角
最后,在获得可靠的肿瘤DNA甲基化标志物后,就该考虑产品落地的技术了,不过,咱们可以先把前两步走稳了,再进一步讨论这个问题。
综上,在新一轮的甲基化标志物研究中,不论是出于科研层面还是科学家的好奇心考虑,研究人员或将不再局限于甲基化芯片所覆盖的~3%的甲基化区域,还有~97%的神秘天地等待着研究人员去探索(世界那么大)。覆盖更多的甲基化位点的WGBS、RRBS、甲基化捕获技术,将会广泛应用于肿瘤甲基化标志物的筛选,值得注意的是,单分子(甲基化单倍型)分辨率也是它们的主要优势。
对于大量ctDNA甲基化标志物的靶向验证工作,PCR技术较难开展基于Bisulfite的多重扩增;甲基化捕获平台具有检测多重靶点检测的优势,Pre-BS Capture受限于基因组探针设计,不能有效放大原始甲基化信号,Post-BS Capture或将得到更多的使用。其中,Roche SeqCap Epi CpGiant的一些先进的探针设计理念值得借鉴。
ctDNA甲基化标志物仅仅是表观遗传学应用的一个方面,技术也仅仅是研究手段,基础研究才是解决临床问题的基石,希望先进的技术可以为科研工作带来便利,也希望大家对相关研究保持客观和耐心。
1. Integrated digital error suppression for improved detection of circulating tumor DNA. Nature Biotechnology 2016
2. Detection and quantification of rare mutations with massively parallel sequencing. PNAS2011
3. Detection and localization of surgically resectable cancers with a multi-analyte blood test.Science 2018
4. An ultrasensitive method for quantitating circulating tumor DNA with broad patient coverage. Nat Med. 2014
5. Identification of methylation haplotype blocks aids in deconvolution of heterogeneous tissue samples and tumor tissue-of-origin mapping from plasma DNA. Nature Genetics 2017
6. Circulating tumour DNA methylation markers for diagnosis and prognosis of hepatocellular carcinoma. Nature Materials 2017
7. “Same difference”: comprehensive evaluation of four DNA methylation measurement platforms. Epigenetics & Chromatin 2018
8. Application of microdroplet PCR for large-scale targeted bisulfite sequencing. Genome Research 2011
9. OPTIMIZATION OF TARGETED BISULFITE SEQUENCING WORKFLOWS FOR LOW-INPUT AND cfDNA APPLICATIONS. AGBT Poster 2018
10. SPlinted Ligation Adapter Tagging (SPLAT), a novel library preparation method for whole genome bisulphite sequencing. Nucleic Acids Research 2016
11. Targeted methylation sequencing of plasma cell-free DNA for cancer detection and classification. Annals of Oncology 2018
12. Genetic prognostic and predictive markers in colorectal cancer. Nature Reviews Cancer2009
13. Base resolution methylome profiling: considerations in platform selection, data preprocessing and analysis. Epigenomics 2015
14. Cloning and Sequencing of a cDNA Encoding DNA Methyltransferase of Mouse Cells. J. Mol. Biol. 1988
15. Genome-scale detection of hypermethylated CpG islands in circulating cell-free DNA of hepatocellular carcinoma patients. Cell Research 2015
本文由来源 微信,由 白云 整理编辑!