全外显子测序(WES)走到今天已经有11个年头了。在测序成本大幅下降后,有观点认为WES将被WGS逐步替代。但事实上,WES仍然是NGS技术中的“Sweet Spot”[1]。WES主要由Roche和Agilent共同推动,前者在2007年将固相芯片靶向捕获与高通量测序结合起来[2],开创了外显子高通量测序的新纪元,后者在2009年开发的液相探针极大的简化了实验流程[3],使得WES的规模化、自动化成为可能(图1)。
图1. 基于杂交捕获原理的两种靶向高通量测序技术,需要“重型”设备的固相芯片(左)和轻便的液相探针(右)[4]
在大量数据积累后,WES捕获区域的设计更加“精华”。由于大部分致病突变位于蛋白编码区(CCDS),IDT于2014年发布了经济型39Mb CCDS WES探针,研究人员可以根据经费情况更加灵活地确定研究样本数量。不过就像当年的中关村组装电脑一样,由于只提供探针,IDT WES也进入了“组装时代”,技术人员需要自行采购预文库构建试剂盒、链霉亲和素磁珠等其他辅助试剂,稍显繁琐。
罗氏捕获一直致力于推动NGS的临床应用。早在2013年,贝勒医学院就采用罗氏 HGSC VCRome对250个先天性发育异常的儿童进行WES测序,检出率为25%,首次向人们展示了WES在遗传病临床诊断中的强大潜力。随后,研究者又使用VCRome对 2000例病例进行了分析,为WES走进临床提供了大量一线数据[5,6]。现在,越来越多的数据表明,WES可以为遗传病患者带去更优的医学决策[7]。2017年,罗氏捕获技术又助力斯隆凯特琳癌症中心的MSKCC-IMPACT Panel成为FDA首个批准的肿瘤多基因检测试剂盒[9]。
图2. WES应用于遗传病致病基因鉴定[8]
可以预见,NGS技术将会越来越广泛和深入的应用于临床诊断,包括遗传病辅助诊断、癌症伴随诊断、单基因病无创产前诊断等领域。作为一项新兴的分子检测技术,目前的NGS检测流程长且复杂,如何建立有效的样本跟踪、污染监测等质量控制体系是未来NGS大规模应用首先需要考虑的问题。
图3. “漫长”的NGS癌症基因检测流程[9]
在这样的大背景下,罗氏推出了行业内首款具有样本跟踪、鉴别功能的全外显子测序产品SeqCap EZ Prime Exome,为建立系统的NGS行业规范迈出了重要一步。接下来,我们将为大家详细介绍罗氏这款引领行业标准的全外显子产品。
Prime Exome 的捕获区域大小为37 Mb,属于“精华版”,它基于GRCh38/hg38人类参考基因组并参考最新的CCDS数据库[10],覆盖98.1%蛋白编码区域。与竞品相比,即使使用更少的测序数据量,Prime Exome对ACMG、ClinVar等医学临床数据库的覆盖也只多不少。再加上在On-target(特异性)和覆盖均一性方面的优势,Prime Exome能使测序费用降低近30%。简而言之,Prime Exome的性价比更高。
图4. SeqCap EZ Prime Exome可以花费更少的数据量并获得更高的覆盖。使用相同的Coriell DNA,利用 SeqCap EZ Prime Exome与竞品的WES Panel进行捕获,然后在Illumina Hiseq2500测序仪上分别测序20M和27.5M reads(100PE)。
如图5所示,从罗氏发布的测试数据来看,100ng起始,在测序4Gb时、~4%的冗余度、~70%的On-target (特异性)和96.3%的Target区域可达到20x以上的深度(均一性),Prime Exome数据表现优异,符合罗氏捕获产品的一贯表现。
图5. 罗氏 SeqCap EZ Prime Exome 全外显子测序表现(20M Reads\100PE\4Gb)
卓越的On-target和覆盖均匀性一直以来都是罗氏捕获产品的标签(图6A),最直接的好处是不用加测来“将就”那些深度不够的区域,可节省数据量。Prime Exome优秀的数据表现得益于其系统的探针设计,比如,高浓度探针、超多重叠瓦(图6B)、独特的重复区探针设计算法以及精雕细琢的探针配比。值得注意的是,Prime Exome还应用了最新的探针制造工艺,进一步提高了其在高GC区域的覆盖(图6C)。
图6. A: 罗氏 WES覆盖均一性一直处于行业领先水平[11];B:超多重叠瓦探针设计[11];C:全新的Prime探针工艺明显改善高GC区域覆盖[12]
目前的NGS实验流程较为复杂(图3),从采集样本到出具结果之间可能有十几个步骤,样本之间的污染、甚至是混淆的风险大大增加。有文献报道,研究人员发现自己实验室某些样本的Y染色体相关基因表达异常,推断可能存在多个混淆的样品(图7上)。而这种现象有可能是普遍存在的,所以,他们接着又对一些公开发表的人类基因数据进行分析后发现,约3%(41/1238)的样本被弄混了,个别数据库中存在混淆可能性的样本高达23%(20/87)[14]。除此之外,样本间污染问题也有报道(图7下)。
图7. 上:利用Y染色体基因表达发现的多个混淆样本[14];下:利用SNP鉴定样本间污染比例[15]
为避免以上问题,罗氏 SeqCap EZ Prime Exome包含了340个精心挑选的SNP位点[13],这些SNP位点组成了源于DNA内部的样本识别ID,可以在整个检测过程中明确地跟踪每个样本(图8),并监测样本间的污染情况。与手动添加掺入标记物或Index测序标签不同,SNP ID可以规避人为操作失误的风险。
图8. 使用SNP ID跟踪样本示意图[13]
如图9所示,在对8种Coriell DNA的捕获测试中, Prime Exome的SNP探针表现优异,在测序4Gb数据量时,340个SNP位点的平均深度≥40x,其中300个位点的深度都达到20x以上。
图9. Prime Exome中SNP探针数据表现(20M Reads\100PE\4 Gb)
在新成员Prime Exome加入后,罗氏外显子Panel变得更加丰富。如表1所示,罗氏外显子捕获系列包括专注核心区域的Prime Exome(37.1Mb)、适合临床医学研究的MedExome(47Mb)、最全面的EZ Exome V3(64Mb)、含有专属UTR的EZ Exome+UTR(96Mb),除此之外还有经,过大规模临床验证的HGSC VCRome(45.2Mb)。值得注意的是,用户可以在MedExome和EZ Exome V3的骨架Panel基础上进一步掺入个性化靶标,实现用户产品差异化。
表1:罗氏外显子捕获产品
综上,罗氏 SeqCap EZ Prime Exome主要有两个方面的调整,精简全外显子panel减少测序成本、加入SNP探针建立样本跟踪体系。
经过多年的发展,基因组研究已经慢慢从狂热回归理性,行业也逐步找到了NGS最具性价比的应用方向。罗氏 37Mb Prime Exome是遗传病、癌症等基因组数据积累到一定阶段的必然产物,也是WES从研究走向临床应用的重要探索。
随着NGS在产前筛查、遗传病辅助诊断以及肿瘤精准医疗等领域的应用,建立全面的质量管理体系以及系统的行业规范迫在眉睫。NGS检测流程较长,DNA分子又看不见,摸不着,DNA样本“张冠李戴”可能会引发严重的医疗事故。罗氏 SeqCap EZ Prime Exome为行业提供了一种利用样本内部的SNP标志物进行监控的方案,利用这些SNP ID,我们可以建立系统的质量管理体系,包括精确跟踪受检者的DNA样本、监控样品污染、明确家系成员的生物学遗传关系等,有望为NGS的大规模临床应用提供更有力的质量保障。
参考资料
1. Exome sequencing: the sweet spot before whole genomes. Human Molecular Genetics, 2010
2. Microarray-based genomic selection for high throughput resequencing. Nature Methods, 2007
3. Solution hybrid selection with ultra-long oligonucleotides for massively parallel targeted sequencing. Nature Biotechnology, 2009
4. Target-enrichment strategies for nextgeneration sequencing. Nature Methods, 2010
5. Clinical Whole-Exome Sequencing for the Diagnosis of Mendelian Disorders. NEJM, 2013
6. Molecular Findings Among Patients Referred for Clinical Whole-Exome Sequencing. JAMA, 2014
7. Clinical exome sequencing: results from 2819 samples reflecting 1000 families." Eur J Hum Genet,2017
8. Genetic diagnosis by whole exome capture and massively parallel DNA sequencing. PNAS, 2009
9. Mutational Landscape of Metastatic Cancer Revealed from Prospective Clinical Sequencing of 10,000 Patients. Nat Med, 2017
10. Recommendations for reporting of secondary findings in clinical exome and genome sequencing, 2016 update (ACMG SF v2.0): a policy statement of the American College of Medical Genetics and Genomics. Genet Med, 2017
11. Performance comparison of exome DNA sequencing technologies. Nature Biotechnology, 2011
12.https://sequencing.roche.com/en/products-solutions/by-category/target-enrichment/hybridization/seqcap-ez-prime-choice-probes.html
13. A SNP profiling panel for sample tracking in whole-exome sequencing studies.
Genome Med, 2013
14. MixupMapper: correcting sample mix-ups in genome-wide datasets increases power to detect small genetic effects. Bioinformatics, 2011
15. Detecting and Estimating Contamination of Human DNA Samples in Sequencing and Array-Based Genotype Data. The American Journal of Human Genetics, 2012
【探基 · 好课推荐】
长按识别下方二维码,关注探基公众号,点击“课程报名”,进入“罗氏测序”,即可报名免费观看视频。
本文由 SEQ.CN 作者:陈初夏 发表,转载请注明来源!