长片段非编码区RNA和蛋白质之间的计算预测关联分析

虽然很多转录组是长片段非编码RNA(lncRNA), 但是人们对它们的功能却是知之甚少。lncRNA通常是通过与蛋白质的相互作用发挥功能,这就表明识别lncRNA的结合蛋白对于理解lncRNA潜在功能的分子机制是很重要的。预测IncRNA和蛋白质之间的相互作用的方法只有几种是可行的。在本研究中我们将介绍一种新的方法叫IncPro

北京大学生物医学信息系李婷婷合作清华大学自动化系等处研究人员通过编码RNA和蛋白序列到数值向量,用矩阵乘法给每一对RNA-蛋白质一个得分。这个得分可以用来衡量一对RNA-protein的相互关系。该方法能有效的区分相互作用和非相互做用的RNA-protein以及给定复杂度的RNA-protein的相互作用。将该方法应用到所有人类蛋白基因中,我们发现长片段非编码RNA倾向于与核蛋白质和rna结合蛋白。

与现有的方法相比,新方法缩短了训练矩阵的时间。并且基于使用的模型获得最优结果,预测LncRNA和蛋白关联的能力已经被加强。该方法还提供了一个在预测过程中如何整合不同信息的想法。该研究发表在2013年《BMC Genomics》杂志上。

参考文献:

Computational prediction of associations between long non-coding RNAs and proteins.Qiongshi Lu,et al.BMC Genomics.2013

作者简介:

张学工:清华大学自动化系和信息国家实验室教授,清华信息科学与技术国家实验室(筹)生物信息学部主任,生物信息学教育部重点实验室副主任。清华973国家重点基础研究发展计划项目《基于新一代测序的生物信息学理论与方法》首席科学家,第四课题组负责人。主要科研领域方向机器学习与模式识别的理论、方法与应用。