在过去的十年里,全基因组测序(WGS)彻底改变了我们对微生物疾病的认识。WGS数据可用于监测、功能基因组学和病原体进化的探索,这促使公共卫生和科研领域的科学家开始采用基于基因组的方法。新型冠状病毒的爆发,使全球各国意识到通过低成本、快速的WGS来进行传染病病原体的基因组监测变得越来越重要。因此,开发一种低成本、快速的微生物测序方法方法可用于大量细菌病原体的收集,有助于加强全球研究合作,以应对未来的传染病大流行。
“自第一个细菌基因组测序完成以来,已经过去了26年了,现在我们可以大规模地对细菌分离株进行测序,”Earlham研究所所长Neil Hall博士表示。但在部分地区的研究团队获得该项技术仍然受到限制。病原体基因组分析的迫切需求促使其研究团队开发新的策略,与更多研究团队一起对数千种细菌分离株进行测序。
近日,Hall博士领导的国际研究团队开发出一种低成本、高效的大规模细菌基因组测序方法,每个基因组的成本不到10美元,可以使更多研究人员拥有对大量细菌病原体进行测序的低成本和可获得的方法。相关研究成果已发表在Genome Biology上,文章题为“An accessible, efficient and global approach for the large-scale sequencing of bacterial genomes”。
目前,人类基因组测序的需求已经将测序成本降低到每个样本1000美元以下。虽然近年来对关键病原体的基因组序列收集的需求大幅增长,但对数千种微生物的基因组序列测序仍然比较昂贵,这主要是因为样本运输和文库建设相关的成本较高。截止到目前,大规模的细菌基因组测序项目还只能在少数几个测序中心进行。Neil Hall研究团队的目标是让全世界的实验室都能使用这种技术。
图1.DNA提取和测序的处理时间和消耗成本。
肠道沙门氏菌是一种可引起感染和致命疾病的病原体。非伤寒沙门氏菌(NTS)与人类小肠结肠炎有着广泛的联系,这是一种与食品产业化相关的人畜共患病,因此沙门氏菌的基因组序列比其他任何细菌种属都多。
近年来,NTS血清、伤寒杆菌和肠杆菌的新谱系被认为是侵袭性血液感染(INTS病)的常见原因,每年在全世界造成约77000人死亡。大约80%的非传染性非典型肺炎死亡发生在撒哈拉以南非洲,非传染性非典型肺炎已成为地方病。沙门氏菌由于基因降解、原噬菌体库的改变和新的多药耐药质粒,血液感染的谱系可以通过基因组学来确定。因此,有必要简化和扩大对来自非洲和世界其他地区的沙门氏菌的基因组监测,包括与人类侵入性疾病和胃肠炎相关的分离物,并扩展到从动物和环境中衍生出来的细菌。
沙门氏菌基因组研究联合会(10KSG)领导了一项聚焦肠沙门氏菌(Salmonella enterica)的大规模基因组测序计划研究。10KSG的目标是使部分贫困地区更容易获得基因组数据。严重细菌疾病负担最大的地区无法充分利用WGS技术,阻止了大规模基因组测序和细菌病原体分析用于公共卫生和监测。
截至2021年12月,公开的沙门氏菌基因组数量达到350,000,可以从几个在线基因数据储存库获得。部分贫困地区进行了基于沙门氏菌感染的基因组监测,但现有的基因数据并不能准确地表征目前正在导致各地爆发疾病的沙门氏菌病原体。论文共同通讯作者之一、利物浦大学Jay Hinton教授,指出:“公共卫生研究人员面临的最大挑战之一是获得最先进的技术。由于后勤和经济方面的原因,感染疾病负担最大的地区并没有从普遍应用的WGS中受益。10000沙门氏菌基因组计划就是为了开始解决这种不平等问题而设计的。”
Hall博士表示:“有限的资金资源促使我们设计了一种基因组方法,以确保准确的样本跟踪,并为单个细菌分离物捕获全面的元数据,同时将测序成本保持在最低水平。该方法简化了大规模收集和检测样本的工作,其关键驱动因素是收集一组尽可能丰富和可靠的基因组数据。”
最新开发的测序方法旨在简化细菌的大规模获取和基因组测序,研究人员在不到一年的时间里收集了10,400多个临床和环境细菌分离物的遗传物质。其中,10KSG的成员提供了来自51个LMICs和地区的10,419个细菌分离物,包括不动杆菌、肠杆菌、克雷伯氏菌、假单胞菌、志贺氏菌和葡萄球菌。
图2.10,419株细菌的地理来源、时间线和体位来源概述。
研究团队通过将细菌菌株从世界各地运到英国进行测序。为了便于大规模、低成本的全基因组测序,研究团队开发了基于NextEra工具包的低成本、高通量的建库方法:LITE方法。在构建LITE文库之前,所有DNA样本均归一化至0.25 ng/μL,除非浓度低于该限值,此时样品仍未稀释。研究人员分析得出,给定一个细菌基因组4.5Mbp的大小,1ng DNA相当于超过20万个细菌基因组拷贝。因此,LITE方法经过优化可用于0.25~2ng的低DNA量输入。
为了最大化LITE的多重测序能力,研究人员设计了438个定制的9bp条形码,每个都有4bp的hamming距离,可以选择超过190,000个样本或唯一双索引200个以上样本。438个条形码允许多重测序能力最大化,并进一步降低成本。
图3.LITE文库构建。
此外,研究团队还开发了一种针对该研究中沙门氏菌样本的定制序列分析生物信息框架(https://github.com/apredeus/10k_genomes)。由于序列鉴定和组装质量的估计相对独立于物种,该生物分析注释具有很强的物种特异性,通过改变质量控制标准和指定已知蛋白质的相关数据库,该框架可以很容易地适应其他细菌。
该研究中,基因文库构建和DNA测序生物信息学分析的总试剂成本不到10美元/每个基因组。研究团队为对大量细菌病原体进行运输和全基因组测序,将热裂解物与DNA提取结合起来,并利用创新的LITE方法进行测序,用于文库构建。研究人员利用模式生物肠道沙门氏菌对该方法进行了评估,最终获得了6117个高质量的肠沙门氏菌基因组。
论文共同通讯作者、利物浦大学博士后研究员Blanca Perez Sepulveda博士主导了全球样本的收集、优化和分析,他表示:“这项大规模基因组测序和细菌病原体分析研究将成为贫困地区公共卫生和监测的巨大资源。我们为全世界细菌基因组的收集和测序建立了一个有效和相对便宜的测序方法。”
综上,该研究提供了一个低成本、稳定的工具,用于生成细菌基因组数据,分析细菌分离株的流行病学、耐药性和毒力因子,可促进细菌病原体的快速和大规模基因组测序,助力流行病的研究。
该研究分析生物信息框架和基因组数据在https://github.com/apredeus/10k_genomes和EMBL欧洲核苷酸档案(ENA)库公开,项目注册号为PRJEB35182和PRJEB47910。
参考资料:
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!