整合基因组数据鉴定潜在肿瘤驱动基因

肿瘤是一个由众多基因突变引起的细胞丧失正常功能的基因组层面的疾病。在这些突变基因中,驱动基因被定义为对肿瘤形成由因果关系的基因,而“乘客基因”是与肿瘤发展不相关的。随着不断增加的大规模的基因组数据的投入使用,整合这些基因组数据以便从肿瘤基因组的偏差中辨别出驱动基因成为了一个对癌症基因组分析和癌症发展的原理阐明都很重要的目标。

清华大学自动化系江瑞副教授合作中国科学院生物物理研究所等处科研人员提出了一个通过整合公开的人类基因组数据,基于肿瘤基因组的拷贝数偏差的区域检测潜在的驱动基因的计算理论-MAXDRIVERMAXDRIVER采用了多种优化策略,构建异构网络中,通过组合的方式融合基因功能相似的网络,基因疾病相关性和疾病表型相似网络。MAXDRIVER进行了验证,有效地检测出基因和癌症之间已知的关联。通过扫描乳腺癌的CNA,黑色素瘤和肝癌的检测,以前鉴定的以及新的驱动基因都被检测出来。通过比较分析发现这三个预测驱动基因(CDKN2AAKT1RNF139)在三种癌症中具有共同之处。该文章发表在201312月的《Scientific Reports》杂志上。

参考文献:

Identifying potential cancer driver genes by genomic data integration.Yong Chen,Scientific Reports. 2013 Dec

作者简介:

江瑞:北京清华大学自动化系副教授。清华973国家重点基础研究发展计划项目《基于新一代测序的生物信息学理论与方法》第四课题组学术骨干。研究领域生物信息学、系统生物学、模式识别、机器学习、统计推断。

张学工:清华大学自动化系和信息国家实验室教授,清华信息科学与技术国家实验室(筹)生物信息学部主任,生物信息学教育部重点实验室副主任。清华973国家重点基础研究发展计划项目《基于新一代测序的生物信息学理论与方法》首席科学家,第四课题组负责人。主要科研领域方向机器学习与模式识别的理论、方法与应用。