整合实验探测数据约束自由能模型改进RNA二级结构的预测

最近,基于高通量测序探索RNA结构的一些实验技术应运而生。然而,大多数二级结构预测工具,包括探测数据的设计和优化特定类型的实验。例如,RNAstructure-FoldSHAPE数据进行优化,同时SeqFoldPARS数据进行优化。清华大学生命科学院鲁志研究员合作中国香港大学计算机科学与工程系、埃克塞特大学及罗切斯特大学医学中心的研究人员合作了一个新的RNA二级结构预测方法,约束最大期望(RME),它可以将多个类型的实验探测数据和基于自由能模型及MEA(最大期望算法精度)进行合并。首先证明了RME大大提高了精确的约束的二级结构预测的精确约束(已知结构的碱基对的信息)。接下来,从不同的实验(如SHAPE, PARS and DMS-seq)收集结构探测数据转化成一套统一的配对概率后验概率模型。 在RME中,通过使用概率分数限制,与其他两个著名的工具(RNAstructure-Fold(基于自由能最小化算法)和SeqFold(基于采样算法))相比较二级结构的性能预测。对于 SHAPE数据,RMERNAstructure-Fold SeqFold要好,因为他们明显改变能量模型与实验的限制。对于较低的探测效率的高通量数据(PARS and DMS-seq) ,二级结构预测的性能测试工具是类似的,只有一部分的rna测试进行改进。然而,去除三级结构和蛋白质的相互作用,RME表明在DMS-accessible区域通过合并DMS-seq data预测精度最高。该文章发表在20157月的《Nucleic Acids Research》上。

参考文献:

Improved prediction of RNA secondary structure by integrating the free energy model with restraints derived from experimental probing data. YangWu,et al.Nucleic Acids Research.2015 Jul

作者简介:

鲁志:清华大学生命科学院研究员。清华973国家重点基础研究发展计划项目《基于新一代测序的生物信息学理论与方法》第四课题组学术骨干。从事癌症发生发展中表观遗传和非编码基因标识物的发现和机理研究等方面工作。