快速聚类100,000个蛋白质候选结构

蛋白质结构从头预测方法,首先生成大量的候选结构,然后通过聚类方法从候选结构中筛选最具代表性的结构。传统聚类方法效率低下是因为当候选结构数量很大时,两两之间的距离计算变得不可行。此外,现有的聚类方法任意确定一个簇中的蛋白质距离阈值:距离阈值小会产生很多的小簇,而距离阈值大就会导致几个独立的簇合并成一个簇。

加拿大滑铁卢大学李明(音译)教授与中国科学院计算技术研究所的卜东波课题组合作提出了一种有效的聚类方法,它是基于快速估计聚类中心和高效修剪旋转空间的。簇的数量是根据信息距离标准自动检测的。ONION程序包能免费下载使用。在标准数据集上的实验结果显示ONION比现有的工具包快14倍,并且ONIONSPICKER相比,在31个目标中得到了更好的筛选结果,在19个目标中筛选得到的结果差一些。在普通的PC机上,ONION能够在大约 12分钟内聚类100,000个候选结构。

参考文献:

Clustering 100,000 Protein Structure Decoys in Minutes.Shuai Cheng Liet al.IEEE/ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS, 2012

作者简介:

李明:加拿大滑铁卢大学计算机系教授

卜东波:中国科学院计算技术研究所研究员。清华973国家重点基础研究发展计划项目《基于新一代测序的生物信息学理论与方法》第二课题组学术骨干。,承担科研项目:863课题“功能基因组” NSFC课题“基于随机场的蛋白质结构预测新算法” NSFC重大课题“非规范知识处理”子课题 973生物信息学课题等。