对用于精确识别密集网络模块的迭代网络划分算法的研究

高通量技术的不断发展,为生物学家们提供了前所未有的机会去研究数以千计的平行基因。当前的基因组数据,包括转录组学、蛋白质组学、代谢组学等等学科,都是在每日的基础上产生。在计算生物学领域,如何存储、组织和解释这样一个巨大的数据量,仍然存在很大的挑战。复旦大学生命科学学院生物统计学研究所田卫东教授带领研究团队采用三个模块化为基础的算法进行了测试:多度贪婪凝聚算法,谱聚类算法和图像分割算法。与原来的三方法相比,InP算法在模拟网络基准研究的网络分区方面取得了显著的改善,在酵母蛋白的复杂网络和乳腺癌的基因中确定了有更好富集功能相关基因的多个模块,并发现在癌基因共表达网络上更多的癌症特异性模块。此外,研究人员发现尽管存在分辨率的限制,但模块化倾向保留未被发现的密集网络模块的主要结构。而且,虽然以不同的模块化为基础的方法可能会划分不同质量的网络,但模块化生产的它们往往是很相似。正因如此,在迭代过程中,科研人员选择了多度贪婪凝聚算法,发现该方法运行效率非常高,但网络划分质量差。然而,InP算法在模拟网络基准研究的网络分区方面取得了显著的改善。因此,在生物网络分析中,InP算法具有广泛的应用性。该研究发表在2011年11月《Nucleic Acids Research》杂志上。

在分割模拟网络时基于模块化方法的性能

对于大多数模拟网络,特别是对于那些相对简单的,最大限度地提高模块化倾向于把几个密集的模块合并变得更大,并以每个模块的主要网络结构保存。尽管分辨率限制,模块化保留未被发现的密集模块的主要网络结构这种模块化的属性促使我们相信一个迭代模块化为基础的方法来划分预先划分的模块,可以逐步解决网络结构。

在分割模拟网络时INP方法的性能

研究人员已经通过反复分区证明,INP算法比传统模块化为基础的方法(包括目前最流行的方法之一,有着高质量网络分区的SC算法)取得显著改善,InP算法显著提高了网络划分的质量。

用InP算法将酵母的复杂网络分区

与传统的以模块化为基础的方法相比,InP算法能够将酵母蛋白质相互作用网络划分成更多生物学意义的基因模块。

用InP算法将乳腺癌基因共表达网络分区

和传统的基于模块化的方法相比,InP分割乳腺癌的基因共表达网络允许更多有独特功能的肿瘤特异性基因模块识别,让与生物学相关的探讨癌细胞的发展和进展的假说成为可能。

已有研究发现,使用预测将有助于生物假说。因此,研究人员还将测试预测GO注释在文件分的使用。作为一个通用的方法,也可以采用InP等生物网络分析,如代谢网络,使科研人员能够发现更多的生物有趣的发现。

参考文献:

An iterative network partition algorithm for accurate indentification of dense network modules.Siqi Sun,et al.Nucleic Acids Research.2011 Nov.

作者简介:

田卫东:复旦大学生命科学学院生物统计学研究所教授。清华973国家重点基础研究发展计划项目《基于新一代测序的生物信息学理论与方法》第五课题组学术骨干。主要研究方向:运用统计学、计算科学、生物信息学等手段进行算法开发,对组学数据进行整合分析并精确预测基因功能、基因-基因相互作用关系、基因表现型及疾病候选基因等。