近日,国际著名学术期刊Nature Communications、Genome Biology、Nucleic Acids Research、Enviromental Microbiology相继发表了中国科学研究院北京生命科学研究院赵方庆研究团队在微生物组学领域的最新研究成果。该团队针对微生物组学研究中的关键问题开发了一系列新的实验技术和计算方法,将极大推动未知环境下微生物结构组成、基因功能和代谢网络的研究。
近年来,微生物组学是国际生命科学和医学领域研究的热点之一。它是以环境样品中的微生物群体基因组为研究对象,以解读微生物多样性、群落结构、进化关系及与环境间相互作用关系作为研究目的新兴学科。以高通量测序技术为基础的微生物组学已经是目前最为关键和成熟的组学方法,业已成为基因组研究领域最活跃的方向之一。它不仅掀起了一场人体微生物领域的革命,同时还能够大大加深我们对生命之树以及生命本身的理解和认识。然而受高通量测序技术的限制,微生物组研究中所利用的实验技术和生物信息学方法遇到了很多困难。如何对缺乏参考序列的海量混合测序片段进行拼接和组装,这是所有微生物组学研究面临的首要问题。除此之外,相对于研究基础较多的人体微生物组,新环境下微生物组的研究更缺乏有效的注释和解析方法。
针对这些微生物组学研究的关键问题,赵方庆团队重点开发了多种微生物组学研究的新技术和新方法,包括:RiboFR-seq、metaSort、inGAP-sf、inGAP-CDG和CRIPSR-network等。这些工具分别针对微生物组分析中的拼接、序列归类和注释,以及微生物间相互作用等问题,为高效解读微生物组提供了全新的技术手段。
微生物组研究通常采用16S rRNA测序以获得物种谱信息,或采用全基因组随机测序以得到功能基因谱信息,抑或两种策略同时采用。然而受测序技术和实验方法本身的限制(即短序列和小片段文库),这些研究会割裂物种谱和功能谱之间的联系。这是因为16S rRNA序列在宏基因组拼接时被视为重复序列,或被拼接到一起,或被舍弃,无法建立其与侧翼的蛋白编码基因的连接,导致16S rRNA物种谱信息与功能基因谱信息的割裂。这给环境微生物物种多样性(尤其是种下多态性)和功能多样性的研究带来严重障碍。 为此,赵方庆研究团队提出一种全新的微生物组研究策略,即16S rRNA-侧翼序列环化测序及计算技术(Nucleic Acids Research, 2016)。通过该技术,可以同时获得16S rRNA V4/6高变区及16S rRNA上游的蛋白编码基因序列。基于此数据,能够建立起16S rRNA与宏基因组拼接序列的物理关联,校正或补充彼此注释的结果,实现准确无偏的宏基因组数据解析,进而快速、准确和全面地解析环境样品中微生物的组成和功能。 随后,研究人员利用该技术,进一步对人体共生微生物和海洋生物表面附生微生物群落开展了研究。从实际数据分析结果来看,该方法可以实现对宏基因组中16S rRNA拷贝数的测定,从而修正了由于16S rRNA拷贝数差异导致的菌群丰度估计偏差,所得到的菌群组成更能反映环境中的真实情况。此外,利用“桥连序列”信息,对16S扩增子和全基因组测序拼接结果进行重新注释,可辅助宏基因组数据的拼接和组装。这项技术首次建立了微生物组中物种谱和功能基因谱的有效关联,为微生物组学研究尤其是未知环境条件下菌群研究,提供了全新的思路和方法。
微生物组群落结构的多样性是群落发挥生态功能的重要基础,因此对于复杂微生物群落结构的解析一直是该领域研究的重点和难点。以往对于微生物群落的解析主要是通过与参考数据库比对来实现,这极大限制了未知环境下微生物群落的研究。单细胞测序技术可以从单个细胞水平获取微生物基因组,它在复杂微生物群落的基因组结构解析方面有着重要的应用潜力。然而,由于微生物单细胞测序技术具有成本高、效率低,并且所产生的数据覆盖度高度不均一等固有缺陷,使得它在微生物组学研究中的应用受到很大限制。针对这一问题,赵方庆团队提出了基于降低物种复杂度策略的微生物组结构解析的新技术—metaSort (Nature Communications, 2017),它将单细胞测序和全基因组随机测序技术相结合,以获取微生物群落中不同物种的基因组完整序列。metaSort利用流式细胞术对宏基因组样品中的细菌进行排序,然后分选出指定区间内指定数目的细菌子集。随后,利用单细胞技术对每个细菌子集进行扩增测序。为了利用原始的宏基因组和分选的细菌子集信息,他们还提出了两个新的算法模型:BAF和MGA。这两个方法可以利用子集中富集细菌的部分基因组序列,从原始宏基因组数据中回收目标基因组序列,并对这些序列进行拓扑组装和变异识别。研究人员利用该技术对未知微生物群落—海藻表面共生微生物进行了研究:仅通过3次流式细胞分选,就成功获得72个接近完整的微生物全基因组序列。通过三代测序技术对拼接后的基因组序列进行验证,表明metaSort方法具有很高的准确性,以及在解析未知环境下微生物群落结构上的巨大优势。
metaSort技术流程
除此之外,赵方庆团队还针对单个细菌基因组中重复区域的拼接问题开发了新的inGAP-sf算法(Nucleic Acids Research, 2017)。一直以来,重复序列都是基因组拼接的主要限制因素,而富含短片段重复序列区域,例如细菌的CRISPR结构,更是微生物基因组组装中难以跨越的障碍。这些序列的缺失可能会导致基因断裂,使某些关键遗传信息在后续的研究分析中被遗漏。此前的序列组装算法仅仅使用配对连接信息,忽视了contig本身的连接关系,不仅使算法难度增加,而且拼接结果也存在间隙序列多、错误连接多等问题。特别是对于短片段重复序列,历来的组装算法都选择直接丢弃,使得短片段重复序列富集区域无法有效拼接。inGAP-sf方法根据德布鲁因图的特征,基于contig的重叠部分构建了直接连接信息图,在配对连接信息的监督下拓扑路径,并对这些路径进行整合,同时引入了贝叶斯模型用于去除错误路径,解决了由短片段重复序列造成的基因组拼接碎片化问题,在保证准确性的前提下延伸了序列的长度,获得了更完整、间隙更少的基因组序列。通过在多个模拟数据和真实测序数据上的测试,inGAP-sf的结果与其他方法得到的拼接序列相比,连续性、准确性、完整性都有明显的提高。该研究使用的拼接策略极大程度的完善了已有序列组装算法的不足,为序列拼接提供了新的思路。
面对宏基因组或转录组数据,科学家们的首要任务是获得它们的编码基因信息。传统的基因识别工具主要依赖于RNA-seq组装软件得到的转录本进行基因鉴定。这些工具的缺点之一是组装软件对测序错误高度敏感并且不能有效处理重复序列区域,因此导致在此基础上进行基因识别会产生大量高度冗余和片段化的基因序列。此外,这些工具需要过度依赖同源基因数据库或参考基因组,不能有效地应用于非模式物种的转录组数据的基因识别。因此,赵方庆团队针对宏基因组和转录组数据分析中的编码基因识别问题,开发了一种基于密码子德布鲁因图的新算法inGAP-CDG(Genome Biology, 2016)。该方法不依赖于参考基因组,直接从未拼接的测序数据中进行基因识别,解决了编码基因识别效率低且不完整的难题。通过使用模拟数据集和公共数据库的真实转录组测序数据,他们对预测基因的长度、灵敏度、冗余度、错误率和杂合度进行了系统性的评估。与其它方法相比,inGAP-CDG构建出的编码基因序列具有长度更长、冗余度更低和特异度更高的优势。该研究为基因识别提供了新的思路和方法,进而对此后的系统发育和功能基因组学研究具有重要的应用价值。
在复杂的人体环境中,从体表到机体内部都共生着规模庞大的微生物,其群落结构变化与人体健康状况联系密切。其中种类丰富、数量巨大的噬菌体能通过塑造菌群结构影响人体健康。但由于人体内的噬菌体过于微小,且缺乏像细菌16S rDNA和真菌ITS一样的标签序列,目前人们仅通过少数低通量的分离纯化实验来确定其与细菌宿主的侵染关系,因此对它们的了解十分有限。为此,赵方庆研究团队提出利用细菌基因组成簇规则间隔的短回文重复序列(CRISPRs)构建了口腔细菌-噬菌体交叉侵染关系网络的新生物信息学方法,通过高通量网络化模式表征噬菌体和细菌在人体生态系统中的捕食关系(Environmental Microbiology, 2016)。结果显示,多数噬菌体仅侵染一种细菌,某些噬菌体有侵染两种(甚至是不同属)以上细菌的能力。这些有多重侵染能力的噬菌体可以被称为“交叉侵染噬菌体”(Cross-infective phage)。另外值得注意的是,交叉侵染噬菌体在丰度上与口腔益生菌存在正相关性,而与牙周致病菌群体呈负相关,提示这些噬菌体可能在菌群结构调控上发挥着重要作用。该方法为揭示CRISPRs和噬菌体在细菌群落演化过程中发挥的生物学作用,进而为发现它们与人体健康和疾病的潜在关联提供了新的研究思路。
上述工作获得了国家自然科学基金及科技部重点研发计划等项目的资助。
相关研究论文:
1. Ji P, Zhang Y, Wang J & Zhao F. MetaSort untangles metagenome assembly by reducing microbial community complexity. Nature Communications 2017, 8:14306.
2. Peng G, Ji P & Zhao F. A novel codon-based de Bruijn graph algorithm for gene construction from unassembled transcriptomes. Genome Biology 2016, 17:232.
3. Shi W, Ji P & Zhao F. The combination of direct and paired link graphs boosts repetitive genome assembly. Nucleic Acids Research 2017, doi: 10.1093/nar/gkw1191
4. Zhang Y, Ji P, Wang J & Zhao F. RiboFR-Seq: a novel approach to linking 16S rRNA amplicon profiles to metagenomes. Nucleic Acids Research 2016, 44: e99.
5. Wang J, Gao Y & Zhao F. Phage-bacteria interaction network in human oral microbiome. Environmental Microbiology 2016, 18(7):2143-2158.
赵方庆研究员
赵方庆,中国科学院北京生命科学研究院“百人计划”研究员,主要研究方向是计算基因组学。现任中国科学院北京生命科学研究院计算生物学联合研究中心秘书长、中国生物工程学会计算生物学与生物信息学专业委员会副主任委员、副秘书长,《Briefings in Bioinformatics》《Hereditas》《Genomics, Proteomics & Bioinformatics》等国际刊物编委。
赵方庆研究员将作为测序中国旗下“探基”平台的特邀讲师,针对以上成果将打造出精彩的系列课程。探基平台的更多课程内容以及本文所提及的文献全文,添加探基妹妹微信号GeneTV100或扫描下方二维码获取,欢迎勾搭!
本文由 SEQ.CN 作者:陈初夏 发表,转载请注明来源!