科研

首页 - 全部文章 - 科研 - Genome Bio| 灵敏、快速的基因组污染检测新工具FCS-GX,可自动去除污染序列、提高数据质量

Genome Bio| 灵敏、快速的基因组污染检测新工具FCS-GX,可自动去除污染序列、提高数据质量

目前,美国国家生物技术信息中心(NCBI)拥有超过150万个提交至GenBank、欧洲核苷酸档案馆(ENA)和日本DNA数据库(DDBJ)的基因组组装,这三大数据库是国际核酸序列共享联盟(INSDC)的合作组织,通常称为“GenBank”,总共包含超22 terabases的基因组序列数据。近年来,测序成本降低加速了基因组组装的产生及其向公共数据库的提交,GenBank中的序列碱基大约每18个月便会增加一倍。

作为基因组组装的一部分,所提交的全部序列都应来自申报的源生物,但少部分序列往往来自外源DNA(即基因组污染),污染可能发生在基因组组装计划的多个阶段。基因组污染会混淆生物学推断,并造成进化关系和横向基因转移等方面的错误结论,因此高质量的基因组对于跨生物学学科的数据分析至关重要。已有大量报道指出NCBI数据库中存在污染,包括模式生物基因组。尤其令人担忧的是,将受污染的序列和相关注释添加到数据库中可能会使错误永久化,从而导致恶性循环。

近日,来自NCBI的科研人员在Genome Biology杂志上发表了题为“Rapid and sensitive detection of genome contamination at scale with FCS-GX”的文章。研究团队开发了FCS-GX,其是NCBI外来污染筛查(FCS)工具套件的一部分,经过优化,可识别和去除新基因组中的污染物序列。FCS-GX可在0.1-10分钟内筛选大多数基因组,对不同污染物种类具有高灵敏度和特异性。研究团队利用FCS-GX对160万个GenBank组装进行了筛选,发现了36.8Gbp的污染,占碱基总数的0.16%,其中一半来自161个组装。此外,研究团队还更新了NCBI RefSeq中的组装,将可检测到的碱基污染减少至0.01%。
FCS-GX可在https://github.com/ncbi/fcs/或https://doi.org/10.5281/zenodo.10651084获得。

文章发表在Genome Biology

对已知污染基因组的特别分析表明,需要一个大型和多样化的筛选数据库来检测潜在污染物的多样性,并将其与正确的序列区分开来。为此,研究团队开发了FCS-GX,通过使用已修改的hashed k-mers(h-mers)来识别潜在的序列匹配,可在不影响特异性的情况下提高对污染物的敏感性。与标准的k-mer hashmap相比,FCS-GX数据库的构建包括删除密码子搬动位置,并使用1位核苷酸字母{[AG],[CT]}来增加编码区域的敏感性。
FCS-GX根据709 Gbp的多样参考数据库进行筛选(数据库构建日期为2023年1月24日),其中包括来自47,754个类群的程序集;该数据库经过优化,可适应512 GiB内存的服务器。FCS-GX分类系统使用了八个较大的分类“kingdoms”:动物(Metazoa)、植物(Viridiplantae)、真菌、原生生物(其他真核生物)、细菌、古菌、病毒和合成序列。根据NCBI Taxonomy分配的BLAST名称分组,每个kingdoms被进一步划分为1到21个分类学单元,从而能够检测到低于kingdoms水平的污染物。
考虑到速度和易用性,研究团队将FCS-GX作为一种公开可用的工具发布,用户可以在基因组组装流程的早期运行该工具,从而实现更好的组装,并更容易提交给NCBI GenBank。总体执行时间包括将数据库读入内存,根据源和硬件的不同,这可能需要4-30 + min;然后进行筛选,对于大多数物种,每个基因组需要0.1-10 min。FCS-GX要求用户提供FASTA格式的基因组,以及NCBI分类标识符(taxid),最后可生成一份包含被识别为污染的全序列和部分(嵌合)序列的详细信息报告。

图1.FCS-GX工作流程。

为检测FCS-GX的灵敏度和特异性,研究团队使用来自高度连续基因组的长、无间隙序列对其进行评估(图2)。由于污染物序列往往很短,研究团队将序列人工分割成1、10或100kbp的子序列,并通过两种方法对其进行检测;最终共检测了663个原核生物和370个真核生物基因组的序列,这些序列来自FCS-GX数据库中的代表物种,但具有不同组装。
结果显示,当污染物种在FCS-GX数据库中时,FCS-GX在来自6个检测kingdoms组(Metazoa、Viridiplantae、真菌、其他真核生物、细菌和古菌)的不同样本中表现出高灵敏度:76%原核生物和91%的真核生物数据集在使用1 kbp片段时实现了高于Sn = 95%的敏感性;在更大片段的情况下,大多数物种的灵敏度接近100%

当模拟新的污染物物种时,FCS-GX的灵敏度降低,原核生物的中位灵敏度降至81–89%,真核生物在1 kbp片段的中位敏感性降至17–63%。与Metazoa、Viridiplantae和其他真核生物相比,FCS-GX数据库中原核生物和真菌的代表性更大,这有助于在模拟新物种时实现更高频率的稳健比对覆盖,并得到更好的Sn评分。此外,FCS-GX特异性测试表明其假阳性发生率较低

图2. FCS-GX污染检测的灵敏度和特异性。

在将数据库加载到单个64 vCPU服务器的内存中后,研究团队在18天内完成了28,774个真核生物基因组的筛选,总计15.7 Tbp。在容量相似的服务器上,FCS-GX以1.94秒/基因组的速度完成了原核生物基因组的批量筛选。此外,与用于NCBI基因组提交的传统筛选相比,FCS-GX可实现高通量组装污染筛查
在当前GenBank中(2023年4月15日),研究团队对1,545,312个原核生物和30,053个真核生物基因组组装的污染进行了表征,总计22.4 Tbp的序列数据(图3)。在23,405,843个序列中鉴定出36.8 Gbp的疑似污染,相当于总碱基的0.16%、检测序列的1.30%。每个基因组受污染序列的比例呈双峰分布,峰值接近0和100%的极值。随着时间的推移,受污染序列的总长度随着GenBank基因组的总长度而增加,这表明受污染序列百分比随时间的推移保持稳定。此外,污染物的分布并不均匀;污染物序列通常很小,81%的污染物 ≤ 1kbp,97%的污染物 ≤ 10 kbp。

接下来,研究团队评估了多个分类等级的污染模式。原核生物的污染率低于真核生物,真菌基因组相对于Metazoa、Viridiplantae和其他真核生物具有较低的污染率;细菌污染占总污染的26.2 Gbp(71%),包括在后生动物基因组中发现的15.2 Gbp。

基因组污染通常反映了生物体的潜在生物学特性,可能来源于共生体、感染、肠道和表面微生物以及饮食。当对宿主基因组或环境样本进行测序时,共生体和寄生虫是常见的污染物。FCS-GX数据库中,研究团队发现了864.4Mbp的污染,其中顶端复合体(apicomplexan)Sarcocystis neurona污染最为严重,主要存在于哺乳动物和鸟类基因组中。在样本制备和/或基因组测序过程中还可能出现的交叉样本污染。此外,研究团队发现,当前NCBI数据库中近一半的总碱基对污染仅来自161个基因组,这些基因组高度片段化,疑似污染主要发生在小序列中;有1,040个基因组的污染序列比例极高(90%-100%)。

图3. FCS-GX在NCBI数据库中检测到大量污染。

在FCS-GX的开发过程中,研究团队利用了传统筛选的结果,在一组严重污染的基因组中识别了>98%的已知污染物序列,同时也发现了由于灵敏度增加而产生的新污染物。为估计灵敏度的增加,研究团队将FCS-GX结果与过去2.5年中发布的14,344个真核生物和194,995个原核生物基因组的原始提交筛选数据进行了比较,排除了198个分类信息不正确或次优的基因组。结果显示,FCS-GX检测到的长度污染为0.163%,与传统方法(legacy screen)检测到的0.038%相比,灵敏度提高了四倍;与2019年Conterminator的筛选结果相比,FCS-GX将GenBank中已识别的污染量扩大了六倍,并且更容易应用于未来生成或提交的单个基因组的筛选
为向NCBI用户提供更干净的基因组子集,研究团队优先使用FCS-GX对NCBI的RefSeq基因组集进行污染清理;人工手动审查了FCS-GX的结果,并使用多种方法对污染最严重的基因组进行初步清理;在将新基因组提交至RefSeq数据集之前,使用FCS-GX作为筛选工具。最终,研究团队清理了124个真核生物基因组,移除了总计548 Mbp的79,593个污染序列,包括34,337个基因和30,356个在污染序列上注释的蛋白质;使用ANI从RefSeq数据集中识别并移除了5,694个可疑的原核生物基因组,又使用FCS-GX识别并移除了1,284个基因组。
目前的RefSeq数据集包含283,221个原核生物和1,616个真核生物基因组,在FCS-GX初步清理后仍有265.1 Mbp的疑似污染,污染序列相当于原核生物总序列的0.018%和真核生物总序列的0.003%,这进一步证实了FCS-GX的高特异性。总体而言,与2020年的峰值相比,研究团队已经将RefSeq数据集真核生物和原核生物基因组中的污染碱基分别减少了90%和53%,与GenBank基因组整体相比,分别减少了98%和81%

图4. NCBI RefSeq数据库中的FCS-GX污染检测。

综上所述,该研究介绍了一种新的基因组跨物种比对工具FCS-GX,可利用h-mer匹配和编辑的参考数据库识别外来生物的基因组污染,运行快速、精度高和污染物的自动去除是其核心特征。经验证,FCS-GX有助于从真核生物和原核生物的组装基因组中快速识别和去除污染物序列,使组装提供者能够提高数据质量,避免影响下游分析的人为因素。

参考文献:

Astashyn A, Tvedte ES, Sweeney D, et al. Rapid and sensitive detection of genome contamination at scale with FCS-GX. Preprint. bioRxiv. 2023;2023.06.02.543519. Published 2023 Jun 6. doi:10.1101/2023.06.02.543519

(1)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

关键词:

热评文章