PyroHMMsnp:Ion Torrent和454序列数据的SNPs检测法

454Ion Torrent这两种测序技术的优势是读长质量高,数量多。但是它们在Homopolymer测序会出现错误,而这样的测序错误会导致无法准确地检测到单核苷酸多态性(SNPs)。为了解决这个问题,使得SNPs检测更加准确,清华大学自动化系江瑞副教授带领研究团队合作美国南加州大学生物科学和计算机科学系陈挺副教授提出了一个名为PyroHMMsnpSNPs检测程序。它由隐马尔可夫模型(HMM)和贝叶斯方法(Bayesian)构成。大量实验表明无论从灵敏度,特异性还是F1测量值的角度,与其他方法相比PyroHMMsnp都展现出极大的优越性。该成果发表在20135月的《Nucleic Acids Research》杂志上。

454Ion Torrent这两种测序方法属于焦磷酸测序法,通过探测核苷酸聚合反应的副产物,比如焦磷酸盐(454),氢离子(Ion Torrent)来对DNA序列进行检测。焦磷酸测序技术容易在Homopolymer出现错误。Homopolymer是指只含有一种碱基的序列片段。Homopolymer的错误有两种,一种是由于Homopolymer的信号内在的随机性造成的,测序仪测出的长度与真实的长度不符,可能偏长,也可能偏短。另一种是因为化学合成的时候,由于一些模板复制的不同步会产生异步现象。异步现象分为两种,一种现象称为Incomplete extension,它是由于一定比例的模板链没有反应,比大多数的模板滞后了,当积累到一定量的时候,会产生插入(insertion)的错误;另一种现象称Carry forward,是因为反应底物没有被清洗干净,使得一些模板比大部分模板提前合成了,这两种现象合称为CAFIE。很多文献认为序列比对的不匹配主要是因为先删除后插入,或者先插入后删除造成的。因此,CAFIE现象是造成测序误差的主要原因。

Homopolymer测序现已被应用于在全基因组范围内探测SNPs。假定序列测定和比对都是正确的,那么探测SNPs是检测位点的观察值是否与参考值不同最直接的方法,但由于CAFIE现象造成的测序错误会使探测结果有所偏差。为了解决这个问题,一些研究通过质量评分校正或者统计分类来提高单核苷酸多态性检测的准确率,例如PolyBayesAtlas-SNP2ProbHD。然而,这些方法在比对不正确的情况下都无法探测到SNPs。因此,重组对于SNPs探测来说是很重要的一步。

直观一点来讲,重组策略就是针对测序误差的特点设计的一种运用比对算法的评分函数。这种重组策略适用于Illumina平台的序列数据检测。而对于454Ion Torrent测序数据来说,评分函数需要考虑同聚物序列所带来的误差,同聚物越长,产生误差的可能性越大,并且在比对的时候会产生gap。针对这种情况,PanGEA提出了一种专门用于同聚物的SmithWaterman算法,在动态程序中它把每个同聚物看做一个单位,并且使较长同聚物的空位罚分变得更小。FAAST在此基础上将流量信息融合于评分函数,这样既能更好地观测流量强度,又能减小空位罚分。但是这两种方法的评分参数都是独立于测序仪器和实验协议以外而设定的。

因此,为了更加准确地检测SNPs,研究人员提出了一种基于HMMSNP检测方法——PyroHMMsnp,图1PyroHMMsnp的工作流程,它主要由HMM和基于BayesianSNP识别算法两部分构成。HMM能够从统计学上准确地模拟出测序错误(过长、过短、插入或缺失),其核心概率成分包括隐藏状态、base call rate矩阵和length call rate矩阵。而贝叶斯法的作用就是根据已测读长来推断基因型。       

1.PyroHMMsnp工作流程图

研究人员用大肠杆菌的两组全基因组重测序数据来评估PyroHMMsnp的性能如何。这两组数据分别来自DH10BMG1655这两个亚种,前者的数据由Ion Torrent测序仪Ion 318TM Chip测得,后者的数据是由GS 454 FLX测序仪测得。表1统计了454Ion Torrent测序数据不同错误类型出现的概率,综合分析得出454测序数据的准确率高于Ion Torrent测序数据的准确率。然后以这两组数据为基础,分别对单倍型基因组和二倍型基因组进行模拟实验。判断PyroHMMsnp性能的标准有三个分别是灵敏度,特异性和F1值。实验结果表明,PyroHMMsnp相较于其他检测方法来说准确性更高(表1为单倍型基因组结果,图2为二倍型基因组结果)。

1.454 Ion Torrent测序数据比较

2.单倍型基因组检测结果

2.二倍型基因组检测结果

接着,研究人员将该方法应用于人类基因组重测序数据,数据由Ion Torrent测序仪测得。实验结果显示,在相似的特异性下,与Samtools相比PyroHMMsnp能够准确地检测出更多的SNPs。图3PyroHMMsnp检测到而Samtools没有检测到的正确的SNPs,图4Samtools检测到而PyroHMMsnp没有检测的错误的SNPs。这说明PyroHMMsnp会根据测序误差模型进行校正,最终得到正确的SNPs

3.PyroHMMsnp检测的正确结果

4.Samtools检测的错误结果

最后,为了评估PyroHMMsnp和其他的方法对于种群基因组数据检测SNPs的性能,研究人员对国际千人基因组计划中的15个个体的序列数据进行了分析,数据由454测序仪测得。结果表明,在所有的检测方法中,PyroHMMsnp能够识别最多的SNPs,精准度在其中排列第二。

总之,PyroHMMsnp极大地提高了SNPs检测的准确性。在今后的研究中,该方法还可应用于探测插入/缺失(indels)、研究异步现象形成的原因以及检测罕见变异,对于推进疾病相关研究具有指导意义。

参考文献:

PyroHMMsnp: an SNP caller for Ion Torrent and 454 sequencing data.Zeng Fet al. Nucleic acids research, 2013 May.

作者简介:

江瑞:北京清华大学自动化系副教授。清华973国家重点基础研究发展计划项目《基于新一代测序的生物信息学理论与方法》第四课题组学术骨干。研究领域生物信息学、系统生物学、模式识别、机器学习、统计推断。

陈挺:美国南加州大学生物科学和计算机科学系副教授。同时就任于清华大学自动化系清华信息科学与技术国家实验室生物信息学研究部。主要研究领域为计算生物学和生物信息学。