基于新一代测序的生物信息学理论与方法 (项目编号:2012CB316500)项目介绍

  新一代测序(亦称深度测序)是近年来发展的高通量并行 DNA 测序技术,是生物信息获取手段的重大突破,对生命科学研究带来了革命,对生物信息学研究带来了新的机遇和挑战。项目立项 4 年以来,这一发展趋势得到了进一步印证,催生了生物大数据分析、精准医学等新的科学和技术增长点。在项目立项时还有声音质疑依托信息学科设立生物信息学项目的合理性和必要性,而今天,不但国内外一流大学和科研机构的信息学科纷纷开展了生命科学相关研究,像 IBM、Intel、Google、Microsoft 等在信息和互联网等领域的产业巨头国在争先恐后尝试迈进生物信息学的大门。

  新一代测序中的生物信息学问题代表了精准医学和生物大数据分析中的核心问题,其中的重要挑战包括两大方面,一是数据的处理方法和处理能力,二是从复杂数据中发现规律、获取知识、建立模型。关键科学问题包括新一代测序的数据模型、存储和计算体系、算法、信息挖掘与整合、生物网络建模与分析、基因调控和生物系统发展模型等多方面。本项目围绕以上科学问题,系统研究新一代测序带来的新的生物信息学理论和方法问题,并开展在细胞编程与分化、肿瘤发生发展和检测等方面的应用,推动对生命现象内在复杂信息调控系统的探索,也推动信息科学在超大规模数据处理、信息提取与推理、复杂系统建模等方面的发展。

  本项目于 2011 年立项,执行时间是 2012 年 1 月至 2016 年 8 月,第一承担单位是清华大学,首席科学家张学工。项目设五个课题:一、多种新一代测序技术的数据产生模型与优化处理方法;二、面向新一代测序大数据量的计算模型与体系结构研究;三、基于新一代表观基因组测序数据的细胞分化和肿瘤发生模型研究;四、新一代转录组数据与网络集成分析的理论与方法;五、基于新一代测序数据的统计遗传学新理论与方法。来自清华大学、复旦大学、东南大学、中科院上海生命科学院、上海生物信息中心、中科院计算所、解放军第二军医大学、中科院北京基因组所等的科研骨干紧密合作,组成了多学科交叉的项目团队。

  在项目立项后的不到四年时间里,团队取得了一系列重要的科研成果、人才培养成果和学科建设成果,发展了围绕新一代测序的生物信息学新理论和新方法,在解决超大规模测序数据处理、分析、解析和应用中的若干理论和方法上取得了重要进展,在建立对基因调控、细胞分化和癌症发生发展过程的信息调控机理的新认识上取得了重要突破,推动了信息科学和生命学科的发展,使我国在生物信息学研究的多个方面进入了世界前沿行列。

  以下是本项目启动会、年度交流会和总结会的合影留念: