自2003年人类基因组计划完成之后,测序技术发展迅猛。2005年,首款二代测序仪诞生,自此,测序技术的发展势如破竹、高歌猛进!测序读长不断加长,从当初的几十个碱基长度到几百碱基,除此之外,测序通量不断提升、时间不断缩短,测序成本急剧下降,伴随而来的是群体测序时代,以及精准医学时代的开启。
在测序技术发展初期,百家争鸣、百花齐放,各种新技术陆续诞生。对于二代测序而言,主要有两类测序方法,即连接法测序和合成法测序。
连接法测序,英文简称SBL测序,利用1-2个已知碱基标记的探针与目标DNA序列杂交,然后再与下一个标记的探针连接,检测标记探针的信号,从而知道目标DNA的序列信息。SOLiD测序技术便是连接法测序的代表。
合成法测序,英文简称SBS测序,是一种依赖DNA聚合酶来测序的方法;该方法又可以分为循环可逆终止法(cyclic reversible termination,CRT)和单碱基添加(single-nucleotide addition,SNA)法。其中, Illumina测序仪采用的是CRT方法, Roche/454等测序仪采用的是SNA方法。
对于SNA方法,其依赖单个信号来标记每个测序的碱基。因为不能终止反应,所以每次只能允许进一种碱基以防止继续延长,否则如果遇到单碱基重复也会继续读取,增加错误率。
对于CRT方法,拿Illumina测序技术来说,四种dNTP被不同的荧光基团标记,每个循环可结合一个互补的碱基,通过四次拍照和比对,便可以推测出与模板莲所结合的碱基。由于加入的dNTP 3’端羟基进行了封闭性化学修饰,所以每轮反应结束之后,荧光基团需要被切除,以便进行下一个反应。
对于以上这些方法来说,短板也很明显,由于对化学反应本身的错误没有有效的检查和矫正机制,导致了其准确性往往被限制在聚合酶的保真度、信号与序列的线性度、信号检测的灵敏度这几个因素上。
2017年11月6日,Nature Biotechnology期刊发表了一篇重磅论文,介绍了由北京大学黄岩谊教授团队开发的一项被称为ECC( Error-Correction Code)测序的新的测序技术,该技术是基于信息理论来修正错误的高准确度荧光DNA测序方法,将使高通量测序仪的精准度进一步大幅提升。通过实验室样机的测试,测序读长可以达到250bp,其中前200个碱基的准确率100%!
该文章正文9页,附件106页,将ECC测序的各种技术细节和性能测试结果做了详细的阐述。
下面,我们一同来了解ECC测序技术的核心原理。
首先,黄岩谊教授团队从化学原理上对荧光发生测序技术中的荧光标记分子进行了结构优化,开发了一种叫做 Tokyo Green的荧光基团,具有出色的性能。与此同时,设计合成了具有不同波长、更优性能的测序荧光核苷酸底物,化学结构如下:
图一:荧光标记核苷酸底物化学结构示意图,(来源Chen. Et.al Nature Biotechnology)
在ECC测序法中,序列信息的冗余来自黄岩谊教授团队新开发的“对偶碱基荧光发生”SBS测序流程,该流程通过对测序试剂按对偶碱基分为两两匹配的三组,并对待测DNA序列进行三轮独立测序,继而产生三条互相正交的简并序列编码。这三条编码可互为校验,后续不但能够通过解码推导出真实碱基序列信息,而且具备对单轮测序错误位点的校正能力。
还是傻傻的搞不懂?
下面,我们简单通俗的再来描述一下测序原理:
首先,A、T、C、G四个碱基,两两组合,分成三大组,每大组包含两小组,每个小组分别用M、K、R、Y、W、S标记,如下所示:
图二:荧光核苷酸底物分组标记(来源Chen. Et.al Nature Biotechnology)
首先,第一大组上场,其中M、K两个小组分别轮流加入到测序反应体系中;在第一个循环中加入的是M组,由于模板链前两个碱基是AC(图三),因此按照碱基互补配对原则,M组中的A、C成员都不能与之配对结合,第一循环标记为0(图四);
图三:测序反应示意图 (来源Chen. Et.al Nature Biotechnology)
第二循环,K组中G、T成员上场,能够与模板链中的AC互补结合,且不能与模板链中的第三个碱基(T)继续结合,因此,第二轮循环结合上了2个碱基,并释放2个荧光信号,裁判标记为2(KK)如下图。第三轮循环,又轮到M小组中的两个成员A、C上场,此时,它们能够与模板链上的TTG结合,因此,释放3个荧光信号,裁判记录为3(MMM),以此类推,第一大组经过10轮循环后,已完成了19个碱基的测序记录。待第一大组结束后,第二大组入场,按照之前的规则进行记录。
图四:测序记录示意图(来源Chen. Et.al Nature Biotechnology)
最后,每个大组的记录情况如下图左所示,根据两两组合的推算,M、R、W小组的交集成员是A,而K、Y、W小组的交集成员是T.... 因此,根据三个大组的记录情况的交集便可以推测出每个成员的身份,完成模板序列的测定。
图五:三组测序结果完成序列转换示意图(来源Chen. Et.al Nature Biotechnology)
由此可见,ECC测序原理巧妙之处在于在DNA互补链合成时可以释放同所延伸核苷酸数目相等的荧光分子。ECC编码和解码策略已被广泛应用在信息通讯和存储等其它领域中,并被证实可以有效检测和纠正数据传输或存储时发生的错误。此次黄岩谊教授团队在测序技术中首次引入冗余编码概念,通过和低错误率的荧光发生测序技术巧妙结合,在实验室搭建的原理样机上获得了单端测序超过200碱基读长无错误的实验结果。
该论文作者包括北京大学博士后陈子天,博士研究生周文雄、乔朔、康力,段海峰副研究员,谢晓亮教授和黄岩谊教授;黄岩谊是这篇文章的通讯作者。该工作先后得到了北京市科委、国家科技部863计划、国家自然科学基金、北大-清华生命科学联合中心以及北京未来基因诊断高精尖创新中心的资助。
参考文献:
Highly accurate fluorogenic DNA sequencing with information theory–based error correction.Nature Biotechnology,doi:10.1038/nbt.3982
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!