基于回归和相关分析的多因子扰动数据预测基因调控网络

系统生物学中一个重要的问题是,依据实验数据和其他先验信息重建基因调控网络(gene regulatory networks, GRNs)。DREAM项目提供了许多类型的实验数据,例如敲除数据,抑制数据,时间梯度数据等。与其他类型试验数据相比,通过这些类型数据更容易经济的获得多因子扰动数据,因此实践中应用更为广泛。

清华大学自动化系周彤教授及其研究团队提出了新算法,利用DREAM4项目的多因子扰动数据推测GRNsp个基因的GRN推测问题可以被分解成p*p-1)个不同的回归问题。在每个回归问题中,目标基因的表达水平分别单独的通过潜在基因的表达水平进行预测。不同的潜在调控基因通过残差平方和以及Pearson相关系数构建目标基因的不同权重。之后标准化的权重可反映不同基因的调控差异。通过选取合适的幂次定律的参数,我们构建了0-1的整数规划问题,并可以估计出任意基因对应的直接调控基因。基于已有的直接调控该基因的估计结果,对标准化的权重进行修正。通过标准化及修正的权重将直接调控按存在可能性进行排序。DREAM4100个多因子的计算机模拟显示,本文提出的新算法的估计性能超出已有最优算法。使用DREAM5项目的真实数据测试,则估计性能排在第三。此外,该新算法的高的预测精度可能有助于指导设计生物实验。该研究发表在2012年《Plos One》杂志上。

参考文献:

Gene Regulatory Network Inference from Multifactorial Perturbation Data Using both Regression and Correlation Analyses.Jie Xiong and Tong Zhou.Plos One.2012

作者简介:

周彤:北京清华大学自动化系教授,自动化系学术委员会主席。清华973国家重点基础研究发展计划项目《基于新一代测序的生物信息学理论与方法》第四课题组学术骨干。研究方向包括:多维系统极限性能分析与综合;基因调控的网络模型构建及干预机理研究;鲁棒控制理论及工程应用;系统辨识理论及工程应用。