OpenMS-Simulator:预测理论串联质谱的开源软件

串联质谱技术是肽段识别的关键技术。肽段的质谱鉴定方法可以分为两类:从头测序法(De Novo)和数据库搜索方法。这两类方法都能收益于理论质谱的准确预测。理论谱包括可能出现的离子的质荷比和强度,它们是通过模拟频谱产生过程来估计得到的。已经有大量的研究在进行理论谱值预测;然而,由于频谱模拟过程的过度简化使得预测方法的预测准确度低。

中国科学院计算技术研究所卜东波研究员、孙世伟副研究员领导的研究小组开发了一个开源软件包(OpenMS-Simulator)来根据给定的肽段序列预测理论谱。基于肽碎片移动质子假说,OpenMS-Simulator训练了一个封闭形式的模型来预测相邻离子的强度比,据此整个理论谱就可以预测出来。收集具有代表性的注释肽段序列的谱值数据,实验结果表明,OpenMS-Simulator能够预测相当准确的理论谱值。该研究还提出了OpenMS-Simulator的另一项应用:理论谱和实验谱之间的相似性可应用于对SEQUESTX!Tandem搜索软件中已报导的肽段序列的重新排列。OpenMS-Simulator实现了一种新的模型来预测给定肽段序列的理论谱值。与现有的理论谱预测工具MassAnalyzerMSSimulator相比,我们提出了新方法不仅简化了计算过程还提高了预测准确度。目前,OpenMS-Simulator支持双电荷肽段的CIDHCD谱值预测。延伸覆盖更多的碎片模型和支持多电荷肽段的预测仍然是未来工作的目标。该研究发表在2015年《BMC Bioinformatics》杂志上。

参考文献:

OpenMS-Simulator: an open-source software for theoretical tandem mass spectrum prediction.Yaojun Wang, et al.BMC Bioinformatics.2015 April.

作者简介:

孙世伟:中国科学院计算技术研究所副研究员。主要研究方向生物信息。

卜东波:中国科学院计算技术研究所研究员。清华973国家重点基础研究发展计划项目《基于新一代测序的生物信息学理论与方法》第二课题组学术骨干。承担科研项目:863课题“功能基因组” NSFC课题“基于随机场的蛋白质结构预测新算法” NSFC重大课题“非规范知识处理”子课题 973生物信息学课题等。