优化基因组高度多样性微生物E. Faecium的二代测序数据混合组装

细菌基因组测序成为研究病原体毒力和亲缘关系很近的菌株的之间的关系的重要途径。在医院里,E. faecium成为一个与常用抗生素相关的重要病原菌。但其有着高度多样性的基因内容,因此对二代测序(NGS)技术的高通量测序和短reads组装提出了一个挑战。中国科学院上海生命科学院植物生理生态研究所李轩研究员带领团队使用三种不同的NGS平台对E. faecium的医院株测序:454 GS-FLXIllumina GAIIx,和ABI SOLiD4.0,约28X500X400X的测序深度。研究人员建立了一个可以把每个NGS数据产生的Contig混合成一个组装版本的流程。结果表明,每一个单个的NGS组装版本都有一个上升限度,不能通过简单地增加数据覆盖深度来克服这个问题。每一种NGS技术显示了一些内在特性,即碱基判定误差,系统性偏差等。每个NGS组装版本的组装空缺(gap)和覆盖率低的地区都与较低的GC含量相关。为了优化混合组装方法,研究人员用不同数量和不同组合方式对NGS数据的进行了测试,并获得了最佳的装配连续性。还首次发现,当使用混合方法与其他类型的NGS数据合并E. faecium基因组的组装时,SOLiD数据可以很大程度帮助组装结果的提升。

该研究讨论了在目前的状态如何最有效地使用最先进的测序技术对微生物基因组构建的问题。研究人员描述了每个NGS技术的测序数据和基因组组装结果,测试了用NGS组合数据进行混合组装的条件,以及得到了实现最低成本组装的优化参数。该研究可以帮助指导其他微生物基因组的工作,因而具有重要的现实意义。该研究发表在20126月的《BMC Systems Biology》杂志上。

参考文献:

Optimizing hybrid assembly of next-generation sequence data from Enterococcus faecium: a microbe with highly divergent genome.Yajun Wang, et al. BMC Systems Biology. 2012 Jun.

作者简介:

李轩:中国科学院上海生命科学院植物生理生态研究所研究员,博士生导师。清华973国家重点基础研究发展计划项目《基于新一代测序的生物信息学理论与方法》第一课题组负责人。主要从事生物信息学和系统生物学的应用研究。