整合表型及基因组定位致病基因

定位人类遗传性疾病的相关基因依然是后基因组时代的巨大挑战。尽管目前已有很多基于关联原则或表型相似等方法的提出,但是这些方法在疾病及基因覆盖度上都很低,阻碍了在全基因组水平进行诱发基因的分析。为了克服这一局限,清华大学自动化系江瑞副教授等研究人员提出了一个名为pgFusion的用于对候选基因排序的严谨的统计方法,该方法整合了疾病表型(通过与UMLS系统进行比较得到)和7个基因功能,包括基因表达、基因本体、代谢关系、蛋白序列、蛋白结构域、蛋白-蛋白互作以及表达调控。涵盖了7,719种疾病和20,327个基因,是目前覆盖疾病、基因最多的方法。通过交叉验证试验验证了该方法的高有效性,并在癫痫性脑病的外显子数据中进行了应用,结果表明该方法使用于复杂疾病的基因分析。除此之外,该发法也可用于其他组学数据分析。本地软件下载及在线服务网址:http://bio info.au. tsinghua .edu.cn/j ianglab/ pgfusion. 该研究刊登在2015年的《BMC Genomics》杂志上。

参考文献:

Pinpointing disease genes through phenomic and genomic data fusion .Rui Jiang, et al. BMC Genomics. 2015.

作者简介:

江瑞:北京清华大学自动化系副教授。清华973国家重点基础研究发展计划项目《基于新一代测序的生物信息学理论与方法》第四课题组学术骨干。研究领域生物信息学、系统生物学、模式识别、机器学习、统计推断。