DNA是生命遗传信息的载体,获取DNA序列信息对于基础科研和临床诊断都至关重要。自1977年第一代测序技术问世以来,经过四十余年的探索,DNA测序技术取得了重大进展。随着对测序成本降低的需求,以高通量为特点的第二代测序技术(NGS)应运而生并逐步成熟,以单分子测序为特点的第三代测序技术也已经诞生。DNA大规模平行测序已然成为基因组学研究和临床诊断的重要工具。
目前,能够完成DNA大规模平行测序的平台,除了基于边合成边测序原理的Illumina平台和基于半导体测序法的Thermo Fisher平台外,作为新兴测序平台代表的华大智造DNBSEQ平台异军突起,长读长平台Oxford Nanopore也呈飞跃式发展。
各家测序仪的“霸主之争”由来已久,在人类和细菌基因组DNA层面的测序性能到底如何,不同的检测需求又该如何进行平台选择?到底应该如何看待各个平台的错误模式?
近日,由生物分子资源设施协会(Association of Biomolecular Resource Facilities ,ARBF)支持的ABRF NGS II期研究成果发布于预印本平台BioRxiv。此研究分析了在文库制备和生物信息可控下, 各大测序平台的数据,将平台的性能和测序错误模式一一揭示,为各大平台的“霸主之争”提供真实全面的参考依据。
ABRF于1989年正式组建,成员包括来自41个国家/地区、340个不同核心实验室的1000多位科学家,成员来自工业界、政府、学术界以及研究机构。ABRF致力于通过研究、交流和教育推进生物技术实验室的核心竞争力和研究。
在ABRF NGS II期研究中,研究者在多个实验室内,基于16款测序平台,对一个人类基因组家族、三个单独的菌株和十种细菌的宏基因组混合物测序,并将各平台数据进行多角度比较。
这些平台包括6款Illumina平台、3款ThermoFisher Ion Torrent平台, 2款DNBSEQ平台(BGISEQ-500和MGISEQ-2000)以及Oxford Nanopore平台和Genapsys平台等。数据分析包括各平台的reads mapping能力,不同平台的测序覆盖度、复杂区域的测序错误率、不同突变类型的检出影响因素等。
图1. 试验设计图:各大平台数据质量都较高,和参考基因组的比对率平均为96.1% (93.0–97.7%)
以25X均一化测序深度后,长读长和短读长平台的基因组覆盖度均较好。
按照UCSC的 RepeatMask分类,DNA重复序列分为Alu、L1、L2、LTR、微卫星、简单重复和端粒区域。测序数据显示,对于DNA重复序列的检测,平台各有所长:BGISEQ-500、HiSeq4000 、NovaSeq 2x150bp在捕获Alu区域时具有优势,HiSeq 2500、HiSeq X10和NovaSeq 2x150bp在捕获L1、L2和低复杂度区域表现最佳,PacBio CCS和NovaSeq在微卫星区域和简单重复区域的测序中表现最好, PromethION平台的特长则在端粒区域的捕获。
图2. 各测序平台数据基因覆盖情况分布:a.25X平均测序深度下,UCSC RepeatMask的覆盖情况;b.基因组平均覆盖度与所有其他平台平均覆盖度
分析结果显示,测序错误率与基因组GC含量具有直接相关性。在GC含量比较高的区域(75%-100%),各平台的错误率均比较高。就错误模式而言,华大智造的DNBSEQ平台和Illumina平台更倾向于核苷酸替代,而且这两个平台比较,灵敏度相当,但华大智造的精度略好;Genapsys平台和长读长平台最主要错误来源是插入/缺失。
图3. 按UCSC-RepeatMask区域的各平台的测序错误率:(a)跨GC-windows的错误检出类型;(b)条形图显示各区域类型的总平均错误率;(c)均聚物(n=72,687)和短串联重复序列(n=928,143)区域的错误率
SNV(单核苷酸变异)和INDEL(插入/缺失突变)是生物DNA常见的突变类型。
在SNV的检出中, 华大智造的DNBSEQ平台最为灵敏,其次是NovaSeq 2x250bp、NovaSeq 2x150bp、HiSeq 2500、HiSeq X10和HiSeq4000平台。对INDEL的检出中,所有平台灵敏度均达到99.5%,华大智造的DNBSEQ平台和NovaSeq的检出相似,优于其他平台。PacBio、Nanopore平台对于SNV和INDEL的捕获能力均较弱。
图4. 各平台SNPs和 INDEL的检出情况:(a)每个UCSC RepeatMask的SNP和INDEL检出数量;(b)各平台对SNP和INDEL突变检出的灵敏性和特异性;(c)各平台捕获INDEL突变的片段大小分布
数据表明, SV(结构变异)的检出与多因素相关,如SV类型、测序平台、实验室间的操作等。
在各平台数据中,HiSeqX10检测到SVs数量最多,其次是HiSeq4000和HiSeq2500。检出假阳性最多的平台依次是HiSeq2500, HiSeqX10和HiSeq4000。
图5. 基于不同平台的SV检出:a.测序反应中,不同SV类型的检出分布;b-d.关于SV突变检出的多角度分析;b.测序平台;c.实验室;d.多重突变;e.每100kbwindows的SV检出。
此研究对于GC不平衡的原核细菌基因组进行了测序分析,包括三种单一菌种和十种细菌的混合物,各样本分别于MiSeq、Ion PGM和 Ion S5平台测序。
细菌基因组捕获的影响因素主要为菌种差异和测序平台差异。在各个平台中,ThermoFisher的Ion PM和 S5平台在错误率角度略胜一筹。对于复杂的宏基因组样本,所有平台都能够识别混合物中的所有菌株,但对基因突变的捕获水平差异较大。
图6. 细菌基因组测序数据:a.基于各个平台细菌基因组混合物的检测结果,各菌种的类型和分布;b.宏基因组中各菌种占比;c.各个测序平台,单一菌种和宏基因组混合物的测序错误率
ABRF NGS II期研究是迄今为止最全面的DNA测序分析研究之一,此研究跨越不同基因组大小和核苷酸组成,多角度分析揭示了测序平台之间的特征差异,以及同一平台的可变性和可重复性。
综合各项数据,样本的GC含量是影响测序错误率的主要因素。对单一样本的DNA测序而言,成熟的平台如Illumina的表现依旧名列前茅,新兴平台的多项性能已经和成熟平台不相上下。但就特定区域如Alu的捕获能力,对SNV、INDEL的检出和错误模式的评估,来自华大智造的DNBSEQ平台,受益于其独特的测序文库方法学,已经独具优势。
不可忽略的是,“对于宏基因组样本,各平台对样本变异的捕获能力差异较大,这表明在复杂背景下对于特定突变的捕获,仍存在挑战”, 论文作者、威尔康奈尔医学院Jonathan Foox教授如是说。
多年来,DNA大规模平行测序的市场一直由Illumina和ThermoFisher等寡头垄断。通过此研究,我们欣喜的发现,越来越多的新兴测序平台依托精益求精的性能指标,在“霸主之争”中不可小觑。
参考资料:
Jonathan Foox .et al,Multi-Platform Assessment of DNA Sequencing Performance using Human and Bacterial Reference Genomes in the ABRF Next-Generation Sequencing Study , bioRxiv ,2020,doi:https://doi.org/10.1101/2020.07.23.218602
本文由 SEQ.CN 作者:陈初夏 发表,转载请注明来源!