MAFsnp:一种多样本精确灵活的分析二代测序数据的SNP检测方法

大多数已开发出检测单核苷酸多态性(SNPs) 的统计方法是利用下一代测序(NGS)数据基于贝叶斯模型来统计,但是没有一种方法是通过计算P-值来检测在频率框架中的SNPs来统计的。

为了填补这一空缺,复旦大学生命科学学院张洪研究员带领研究人员开发了一种新的方法MAFsnp,准确灵活查找SNPs和NGS数据的多重抽样法。MAFsnp基于一种预计的似然比进行检验(eLRT)统计的。在实际情况下,相关参数非常接近参数域的边界,所以标准大样本性质是不适合评估eLRT统计的有限样本分布。研究人员观察到检验统计量的分布是一个零和连续部分的混合,所以提出通过一个新的双参数混合分布来模拟检验统计量。一旦混合分布的参数是预计的,可以很容易地计算出P-值去检测SNPs,并且多次测试校正后的P-值可用于任何预先规定的水平检验错误发现率(FDR)。通过模拟数据显示, MAFsnp比现有的SNP检测方法更好的检测错误发现率。通过两个真实数据集的应用,MAFsnp也显示出在检测精准性上优于现有的SNP检测方法。R包“MAFsnp”实现了新的SNP检测方法,网站链接:http://homepage.fudan.edu.cn/zhangh/softwares/ 该研究发表在2015年《Plos One》杂志上。

参考文献:

MAFsnp: A Multi-Sample Accurate and Flexible SNP Caller Using Next-Generation Sequencing Data.Jiyuan Hu,et al.Plos One.2015

作者简介:

张洪:复旦大学生命科学学院正高级青年PI、研究员。清华973国家重点基础研究发展计划项目《基于新一代测序的生物信息学理论与方法》第五课题组学术骨干。主要研究方:遗传统计学:基于群体数据、家庭数据和抽样调查数据的基因-疾病关联分析,基因-基因/基因-环境交互效应分析;临床试验和生存分析;病例-对照研究。