在过去的十年间,二代测序仪制造商Illumina战胜各路豪强,目前已占据了大部分市场份额。现在,购置一台Illumina最新款测序仪Novaseq,俨然和当年拥有苹果手机一样,是企业身份的象征。然而,Illumina的二代测序仪目前也面临着一些问题,例如文库富集以及测序仪的簇生成过程都是由PCR完成,会出现基因组覆盖不均匀的测序噪音;此外,依赖聚合酶的边合成边测序难以保证碱基准确性,将产生碱基错误的测序噪音。因此,在下游应用过程中,降噪技术显得尤为重要。
在2015年的CSCO大会上,贝瑞和康推出了自主研发的游离DNA富集技术,环化单分子扩增和重测序技术(Circulating Single-Molecule Amplification and Resequencing Technology,以下称为cSMART);该技术不单适用于无创单基因遗传病检测,更重要的是,cSMART技术特性满足液态活检高灵敏高特异性的要求,在肿瘤辅助诊断、用药指导、进展监测等临床领域均有广阔的应用前景。此外,2016年的CSCO大会,安可济公司推出自主研发的“Firefly™”游离DNA靶向测序技术,采用单链环化DNA滚环复制串联重复确认法,凭借全球领先的技术性能,在肿瘤个体化诊疗中取得了令人瞩目的成绩(6)。据安可济创始人林盛榕博士介绍,将这项技术命名为“Firefly”是因为萤火虫巧妙暗喻了该检测技术的降噪特性:相比白天(降噪前),夜晚(降噪后)的萤火虫才格外醒目。
基于NGS平台,从NIPT到液态活检其噪音源是什么,如何降低?另外我们注意到,领军企业贝瑞和康和行业新贵安可济都不约而同地提到了“环化”这个概念,环化到底有何优势? 接下来,我们围绕二代测序的两大临床应用,NIPT和液态活检技术中如何降低测序噪音的问题,和大家一起分享如何突破测序仪本身的技术限制,开创崭新的基因检测时代。在阐述这些问题之前,先简单介绍一下NIPT和液态活检的检测原理。
NIPT的检测原理是对怀孕母亲血液中的cfDNA进行高通量测序,通过统计测序Reads比对到染色体的次数来推测cffDNA(胎儿游离DNA,cell-free fetal DNA)的异常(图1A),以此预测胎儿染色体数目是否正常;换句话说,NIPT的基本原理就是数数。如图1B所示,在NIPT检测中,比对到基因组某条染色体的一整条Read算是1次。同样,液态活检也是靠数数来推测某条cfDNA是不是ctDNA,只不过检测分辨率从NIPT的染色体提升至单分子的单碱基水平,也就是大家常常听到的低频突变检测;所以,液态活检对碱基准确性提出了更高要求,必须降低测序错误噪音。
图1:NIPT和液态活检的检测原理(图1A节选自[1])
NIPT通过检测cfDNA来间接评估胎儿基因状态,而通过羊水穿刺样本可以直接检测胎儿DNA反映胎儿基因的真实状态;液态活检通过检测血液中的ctDNA间接反映患者的肿瘤基因组变异,而使用组织样本则可以直接对肿瘤组织中的突变信息进行解读。相比“直接”的检测手段,这些“间接”的方法更容易受到干扰,我们将一切干扰正确判断的因素都称为噪音源,包括上面提到的Illumina平台仪器产生的噪音。
1. NIPT降噪方案
从检测原理上我们可以看到(图1A),NIPT的分析准确性非常依赖Reads对基因组覆盖的均匀性,正如前文提到的,文库构建(接头连接,PCR扩增等)和测序仪(成簇反应-PCR扩增等)会造成覆盖度偏倚,他们是NIPT的主要噪音源。由于测序仪的成簇反应无法省略,我们只能优化文库构建,如图2A所示,PCR-free可以给NIPT数据带来极大优化。
但是,我们都知道cfDNA含量较低,只有纳克级别,放弃PCR不进行富集直接测序非常具有挑战性,需攻克低起始量建库等多个难题。那么,能否实现呢?回答是肯定的,这个技术的名字叫作“EZ-PALO”,它是国内基因测序的领军企业贝瑞和康的核心技术之一,PCR-free不但能使流程简化、通量提高、使之贴近临检需求,还可以使测序数据更符合检测原理,一举多得。
图2:NIPT和液态活检的降噪示意图
2. 液态活检降噪方案
区分ctDNA多以单碱基突变为特征,他们在总cfDNA的含量较低,当测序错误率与ctDNA在cfDNA中占比相当时,比如都是0.1%,在这种情况下,我们无法判断观测到的某个突变是测序错误还是真实存在,ctDNA特有的标记便被淹没在错误噪音中(图2B)。
打个比方,某个坏人躲在人群中,他有两个特点,一是身高一米七,二是蓝眼睛,但是警力有限,只能重点排查,靶向捕获就是先把一米七左右的人找出来,然而我们发现很多一米七的人居然也是蓝眼睛,究其原因可能一些普通人带着蓝色的隐形眼镜,得先把隐形眼镜摘掉才能进一步判断,这里说到的蓝色隐形眼镜就是液态活检的噪音。
图3:液态活检流程中产生的背景噪音
利用二代测序进行液态活检的检测流程也可理解为一种靶向测序技术,通常我们指的靶向测序是对某个感兴趣的基因组区间进行特异检测,比如外显子靶向测序;只是在液态活检中,靶向的基因在肿瘤诊治中具有临床意义,比如靶向用药指导、肿瘤复发监控等。
如图3所示,液态活检技术流程中的噪音源可以细分为三个部分,第一部分来自于靶向捕获技术,也就是在召集身高一米七的人的过程中;第二部分是在文库扩增富集时由PCR聚合酶产生;最后就是测序仪本身的测序错误。前两种噪音属于文库构建层面,可以通过技术优化降低,测序仪的错误是基本固定的,最后,残留的噪音可以通过单分子标记技术进行矫正。下面我们先介绍一下前两种噪音如何产生以及优化思路。
首先,先谈谈靶向富集技术,现在的主流方法有两种,扩增子(PCR)和杂交捕获(图4A),杂交捕获存在两个明显的弊端,1) 实验操作比较繁琐,流程较长,不符合短周期样本的临床检测需求;2)探针杂交过程会对DNA造成损伤,导致碱基突变,噪音升高(图4B)。扩增子技术无探针杂交过程,不会产生额外噪音,操作简单,流程便捷;因此,常被液态活检采用。
图4:A. 两种常见的靶向捕获技术;B. 探针杂交过程产生的背景噪音(节选自[2])
不过,扩增子技术并不是没有缺点,它靶向检测区域较小,特别是传统扩增子技术存在cfDNA模板丢失的问题,痕量的ctDNA可能趁机溜走。如图5A所示,cfDNA长度~170bp,不能同时被两侧引物覆盖的cfDNA就损失了。
图5:A.双侧引物扩增富集示意图;B. 单侧富集技术之成环;C. 单侧富集技术之锚定PCR
那么,工程师,你看怎么办?工程师:单侧引物富集。之所以说现代分子生物学的技术储备是二代测序得以蓬勃发展的土壤就是这个原因,测序前的样本处理过程,是一个完全开放的平台,研究人员可以运用人类所有的分子技术成果来达成研究目的。
单侧引物富集可以通过两种思路完成,第一,锚定PCR。如图5C所示,在PCR之前,在DNA分子的两端连接上已知序列,这样,即使cfDNA只含有单侧引物的结合位点,也可以与事先连接上的已知序列引物配对,进行PCR富集。第二,先成环再富集(图5B)。与锚定PCR一样,cfDNA分子内成环后,同样可以使用单侧引物富集文库。
如图6所示,我们看到了熟悉的质粒,有没有感觉场景突然被拉回到超净台,不过,这是一种基于克隆构建成环的二代测序技术,称为Cypher-Seq,2015年发表在Nucleic Acids Research杂志,在Cypher-Seq技术中,Illumina接头被制备成了载体,插入片段是待研究的目的DNA,可检测频率低至2.4x10-7的突变。
图6:低频突变检测技术Cypher-Seq流程示意图[3]
我们注意到上述方法是通过双链进行成环,双链成环有一个弊端,就是分子间的串联现象会比较严重,影响底物利用效率,因此,研究人员往往会选择特异性更强的单链分子内部成环(图7A)。
图7:A. 单链成环具有更强的特异性;B. 两种增强单链连接效率的方法
然而,特异性提高了,单链成环的效率却降低了,主要是因为单链DNA的连接效率是显著低于双链DNA的,所以,解决时就会用到一种伟大的思想,叫“没有机会,那就创造机会”,没有双链,人为制造双链结构。如图7B所示,在2013年,Nature Protocol报道了一种单链DNA连接建库的方法(ssDNA 1.0),该方法通过延长连接时间(过夜)来增加效率,流程非常耗时(4);2017年,Nucleic Acids Research公布了该流程的升级版本,在ssDNA2.0中,研究人员将单链接头改造为部分双链,在底物与接头的单链部分退火后,就获得了期望的双链结构,这时候T4 DNA连接酶的工作效率就非常高了,连接时间被压缩到1小时(5);此外,像Padlock技术一样,加入一段与单链分子互补配对的序列形成双链结构,连接效率也能够得到极大提升,类似的原理都可以用于提高单链连接效率。上面谈到的锚定PCR和成环技术,都是为了提高模板利用率,防止微量的ctDNA在此过程中丢失。
图8:A:传统指数PCR扩增;B:线性纵向扩增;C:线性横向串联扩增
下面,接着介绍噪音来源的第二部分,文库富集过程中,由聚合酶产生的碱基突变。文库富集有两种方法,一是指数扩增,二是线性富集。如图8A所示,指数扩增时,引物会以新合成的DNA为模板进行下一轮二链合成,所以某次突变会积累下去;而线性富集始终保持以原始DNA为模板,某次合成出现的突变不会继承传递(图8B);所以,借助线性扩增,聚合酶的合成错误不会因为指数扩增而被无限放大。
线性扩增又可分为横向和纵向两种,如图8C所示,横向线性扩增以成环的DNA为模板,利用聚合酶强烈的链置换活性(比如phi29、Bst DNA聚合酶等),不停的剥离上一轮合成所产生的二链,得到了横向串联重复的线性模板,横向与纵向线性扩增方式一样,均具有背景突变不会积累的优势(图8C)。phi29聚合酶保真性高而且具有强烈的链置换活性,应用非常广泛,比如张鹍教授团队刚刚在PNAS发表的单细胞测序技术就是利用了phi29的上述活性。
第三个噪音源,测序仪的测序质量,测序试剂、光路、文库片段大小,碱基均匀性等因素都是影响测序质量的重要因素,在这里我们不做详细介绍。
上述方法都是在降低噪音,但噪音依然存在,接下来我们再简单介绍一下利用单分子标签(Unique Molecular Identifier,UMI)对残留噪音进行矫正或纠错的原理。
UMI矫正的原理有两个关键点,第一,以单个DNA分子为测序样本,而不是传统胚系突变检测时所用的样本DNA整体,第二,通过数量换质量,对标记后的单个DNA分子多次测序(也称为高深度测序),进一步提高单个分子的单碱基准确性。
流程如图9所示,先将UMI标签添加至DNA分子(双端添加可用于区分正负链,进一步矫正),然后进行文库富集,这时候,不管是指数还是线性,单个分子都被复制成千万个带有相同标记的分子,然后再进行高通量测序。在测序数据中,通过单分子标记将他们重新聚集在一起统一分析,聚合酶错误和测序错误在高深度测序数据中是零散分布的,统计一致性序列后便得到了矫正后的精确序列,可用于对整个样本中的突变频率进行“绝对定量”。值得一提的是,单个UMI的效率,UMI自身的突变纠错以及不同UMI的均匀性等性能均需要在实际操作中进行优化,但这些都不影响该解决方案的实施。
图9:单分子标签技术原理示意图
实际上,胚系突变检测的原理和液态活检是类似的,只不过在胚系突变检测时,待测分子只有两个,分别是两条姐妹染色单体,细胞的复制过程就是实验中的文库富集步骤,最后,我们是对一群细胞的DNA进行多次测序来确定两条分子的序列信息;
通过上述介绍我们发现,对NIPT降噪可利用PCR-free进行,而在液态活检技术中,我们需要对单个分子进行多次测序,PCR扩增又是变成了必要的过程,所以,任何技术都不能简单的以好坏来评估,他们都需要服务于实验目的。
NIPT和液态活检只是二代测序技术的代表,如果大家看过Illumina的文库构建技术综述,一定会为测序技术的波澜壮阔而惊叹;从DNA到RNA再到表观修饰,从动物、植物、到微生物,从gDNA、cfDNA到mRNA、microRNA,从组织、FFPE、血浆再到单细胞,没有全世界科研人员的共同努力,是不可能完成如此宏大的工程。
近日,国产高精尖分子生物仪器研发捷报频传,从数字PCR,到新款的二代测序仪,再到国产三代测序仪首次应用于NIPT检测,我们拥有了足够的技术资本去打破上游产业链的束缚,实现中国人自己的精准医疗,作为国人倍感骄傲;但是,如何让这些优秀的平台在科研和临床应用中生根发芽,如何打造设备的技术生态环境需要思考,毕竟,群众的力量是无穷的。
参考文献
1. Noninvasive prenatal diagnosis of fetal chromosomal aneuploidy by massively parallel genomic sequencing of DNA in maternal plasma.
2. Integrated digital error suppression for improved detection of circulating tumor DNA.
3. Targeted single molecule mutation detection withmassively parallel sequencing.
4. Single-stranded DNA library preparation for the sequencing of ancient or damaged DNA.
5. Single-stranded DNA library preparation from highly degraded DNA using T4 DNA ligase.
6. Cross-Platform Comparison of Four Leading Technologies for Detecting EGFR Mutations in Circulating Tumor DNA from Non-Small Cell Lung Carcinoma Patient Plasma.
本文由 SEQ.CN 作者:王迪 发表,转载请注明来源!