基于回归分析的群体重组率的快速估计

重组是一种基本的进化动力。因此,群体重组率ρ在群体遗传数据分析中具有重要作用,但难以估计。其难度在于常用估计方法的精度难以把握,以及获得这些数据所需的计算工作量大。一些特别流行的估计方法是基于近似似然法的。这种方法比完全似然法所需的计算量小很多,但是精度不高。然而,这些近似估计的计算仍然是非常耗时的,特别是当样本量很大的时候。虽然复合似然估计辅助量可以预先计算并存储在列表中,但是如果样本大小或突变率θ发生变化,那么这些列表就需要被重新计算。

上海生命科学研究院李海鹏研究员带领研究人员提出一种基于回归模型的boosting变量选择的新方法。对于大样本,该方法比其他的近似方法所需的计算量少得多,但同时还能提供类似的精度水平。值得注意的是,对于一个包含几百甚至几千个个体的样本,使用回归分析方法可以通过一台个人电脑在几分钟内得到ρ的估计值,而其他的方法可能需要几天或几个月(甚至几年)。当样本量较小(N < 50)时,新方法计算效率仍然很高,但会产生有偏估计。研究人员希望新的估计方法有助于分析大样本或者许多可能具有不同突变率的位点。该研究发表在2013年6月的《Genetics》杂志上。

参考文献:

A Fast Estimate for the Population RecombinationRate Based on Regression.Kao Lin,et al.Genetics. 2013 Jun;

作者简介:

李海鹏:中国科学院上海生命科学研究院马普学会计算生物学伙伴研究所研究员。清华973国家重点基础研究发展计划项目《基于新一代测序的生物信息学理论与方法》第伍课题组学术骨干。主要研究方向为进化基因组学,群体遗传学。