近年来,研究发现人类肠道微生物组与各种癌症、代谢、免疫学和神经疾病相关。人类肠道微生物组已成为一个备受关注的科学领域。宏基因组测序可用于解析微生物的群落结构、物种组成、系统进化、基因功能和代谢网络等,已经广泛应用于肠道微生物的研究。目前,宏基因组广泛关联研究经常依赖参考基因组的完整性进行分类分配,并将微生物基因功能与疾病联系起来。已有研究表明,肠道微生物宏基因组与各种疾病的关联中,可能存在关键的群体特异性差异。虽然全球范围内肠道微生物组研究越来越多,但亚洲人群的肠道微生物多样性仍未得到充分研究。
近日,新加坡国立大学等研究团队在杂志Nature Communications发表了题为“Genome-centric analysis of short and long read metagenomes reveals uncharacterized microbiome diversity in Southeast Asians”的文章。研究人员利用混合测序(短读长和长读长测序)和Hi-C技术,对三个人群(华人、马来人和印度人)的109个肠道微生物组进行了深入表征,全面重建了4497个中等和高质量的宏基因组组装基因组(MAG)。
文章发表在Nature Communications上
为了探索宏基因组策略在生成高质量肠道微生物参考数据库中的效用,研究团队从新加坡现有多组学研究(新加坡铂金宏基因组项目(SPMP)中招募了109名受试者,收集粪便样本提取DNA,进行短读长和长读长测序以及(Hi-C)分析。
研究团队将MAG常用短读长测序策略与混合测序策略进行了比较,以了解它们在构建特定人群数据库中的实用性。从成本角度来看,研究人员注意到混合测序策略的总成本约增加了100%,每个样本的云计算成本也略有增加,但混合测序策略使得每个样本产生的基因组数量增加了>61%(图1a)。总体而言,通过109个样本的混合测序获得了4497个MAG,短读长测序获得了2789个MAG。
研究发现,在混合测序中加入长读长测序数据,可以显著改善基因组组装的连续性,混合测序的平均N50为339kbp,使用短读长测序的N50为12kbp,获得了基于MIMAG标准更高质量的基因组,通过短读长测序组装没有获得此类MAG。为了评估MAG的质量是否可以进一步提高,研究人员结合了Hi-C数据,增加了获得高质量MAG的比例,并使完整的基因组比例增加了一倍。但目前Hi-C分析的样本成本很高,生成特定人群参考的研究需要考虑成本效益权衡。
研究人员对SPMP中的混合测序基因组组装根据基因组分类数据库(GTDB)进行分类,并与GTDB参考基因组进行了比较,以评估其效用。结果显示,SPMP基因组为大多数GTDB菌株提供了显著改进的参考,包括分离株以及未培养的生物体。总体而言,SPMP基因组为110个GTDB菌菌株提供了高质量参考,突出了“platinum”宏基因组学方法在增强参考基因组数据库方面的价值(图1)。
图1. 高质量微生物参考的组装策略,来源:Nature Communications
亚洲肠道微生物群具有大量未表征的肠道微生物遗传多样性
通过涵盖新加坡的三个主要亚洲种族,研究人员预计SPMP将成为探索东南亚肠道微生物多样性的有用资源,并测试了针对特定人群的MAG参考目录。SPMP MAG分析表明,在100名受试者中,可恢复肠道微生物90%以上的物种多样性。基因组集合的大小是公共肠道微生物参考数据库的1/6,菌株级SPMP数据库可用于识别来自新加坡独立研究的更多肠道细菌reads,并在数据库大小相似时在基因组级别对更多reads进行分类。此外,SPMP数据库提供了相对于UHGG菌株水平reads映射更高的灵敏度。以上结果表明,具有特定种群菌株水平表示的高质量数据库可使用更少的计算资源,同时为微生物组图谱或分类学分类提供更好的参考。
多元回归分析发现,超过60%的微生物分类学关联与种族有关,其中有23个特定于性别关联,19个基于年龄关联。随后,研究人员将SPMPMAG聚合成菌株集群(SLC),用参考基因组集进行注释,识别了70个推定的新菌株。此外,混合测序组装为新SLC生成了高质量和近乎完整的基因组,显示了其在捕获微生物多样性方面的实用性。此外,研究人员注意到,部分菌群在新加坡人群肠道微生物组中比在西方受试者中的更为丰富,这表明了即使是常见的肠道细菌也需要群体特异性参考。
在菌株水平,与UHGG数据库中超过200,000个基因组相比,SPMP基因组显著独特,在3891个菌株中有3413个新菌株。在SPMP中最丰富的20种肠道细菌中,UHGG不到20%。此外,SPMP MAG揭示了新加坡人群中更多未表征的菌群多样性,可用于发现益生菌或新的生物资源。
研究人员结合了基于比较和基于深度学习的方法来注释生物合成基因簇,确定了27,084个生物合成基因簇(BGC),通过BiG-SCAPE分为16,055个基因簇家族(GCF)。超过90%的GCF与标准数据库(antiSMASH和MIBiG)中的已知BGC没有相似性,并且在肠道微生物参考基因组中的注释中未发现,展现了使用互补算法进行生物勘探的价值。
图2. SPMP基因组中新菌株和基因家族的特征,来源:Nature Communications
综上所述,研究人员利用新的宏基因组分析方法,在685个菌株中鉴定出70个新的肠道菌,并发现了3413个种群特有的菌株。此外,研究发现了数千种新的BGC,可作为生物勘探的资源。以上结果揭示了东南亚人群中显著的未表征肠道微生物多样性,强调了全面识别次级代谢途径对了解人类疾病中肠道微生物宏基因组功能的重要性,为精准医学项目提供了特定人群参考的模板。
Gounot JS, Chia M, Bertrand D, et al. Genome-centric analysis of short and long read metagenomes reveals uncharacterized microbiome diversity in Southeast Asians. Nat Commun. 2022;13(1):6044. Published 2022 Oct 13. doi:10.1038/s41467-022-33782-z
https://www.nature.com/articles/s41467-022-33782-z
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!