递归支持向量机方法对宏基因组进行非比对的监督分类

对比宏基因组样本和分类是对人体的天然环境或利基微生物群落在研究中的主要任务之一。生物信息学方法在此任务中扮演着重要的角色,包括16S rRNA基因分析,一些对宏基因组数据进行的基于比对和无比对方法。无比对的方法具有不依赖于已知的基因组注释的优点并因此对于学习复杂微生物组具有较高的潜力。但是,现有的无比对方法都是基于无监督的学习策略(例如,PCA或聚类)。这些类型的方法在揭示主要的相似点和分组微生物样本之间的关系强大,但不能施加用于鉴别那些不是在数据的主导品种的预定义类关注点。在后一种情况下就需要监督分类,把样品分类为预定义的类为目标并发现可以区分的类的功能时需要监督分类。对宏基因组数据基于比对的监督分类的功能上的有效性在最近的一些研究中已被证明。对宏基因组数据无比对的监督分类方法的应用还没有得到很好的探索。

清华大学自动化系和信息国家实验室张学工教授带领研究人员开发了对任务的方法-为了最终特征的选择和分类使用K-元组频率为特征,而这个特征直接从宏基因组短readsR-SVM(递归SVM)计算得到。研究人员用一个包括几个已知的基因组,和一个真正的宏基因组二代测序短reads数据的模拟数据集测试了我们的方法。基于模拟数据的实验表明,该方法可以几乎完美的类分类,并可以恢复主要序列特征区分的两类。在真正的人体肠道微生物基因组数据显示,方法可以区分炎性肠病样品(IBD)患者的对照样品具有高准确性,当用无监督聚类方法比较样品时,可以不分离。

研究人员提出的无比对的监督分类方法,可以在识别运行良好预定义类和在选择用于判别特性序列特征宏基因组样品。这项研究显示了如何使用宏基因组序列的可行性为例对人类微生物组的功能机构研究是否可使用监督的机器学习方法的具体人的健康状况。该文章发表在2013年《BMC Genomics》杂志上。

参考文献:

Alignment-free supervised classification of metagenomes by recursive SVM.Hongfei Cui and Xuegong Zhang,BMC Bioinformatics.2013

作者简介:

张学工:清华大学自动化系和信息国家实验室教授,清华信息科学与技术国家实验室(筹)生物信息学部主任,生物信息学教育部重点实验室副主任。清华973国家重点基础研究发展计划项目《基于新一代测序的生物信息学理论与方法》首席科学家,第四课题组负责人。主要科研领域方向机器学习与模式识别的理论、方法与应用。