科研

首页 - 全部文章 - 科研 - 王凯团队发表利用长读长测序数据解析遗传变异的深度学习算法——NanoCaller | Genome Biology

王凯团队发表利用长读长测序数据解析遗传变异的深度学习算法——NanoCaller | Genome Biology

单核苷酸多态性(SNP)和插入/缺失(InDel)是人类基因组中最常见的两种遗传变异类型。在利用新一代高通量测序数据研究基因组变异和基因组功能时,SNP和InDel的检测基本检测项目。目前,已有多种不同算法可用于短读长测序数据中的SNP和InDel分析。但由于这些方法是针对短读长测序数据开发的,因此在错误率高的长读长测序数据上不能很好地运行。此外,短读长测序固有的技术限制使得短读长测序数据不能用于复杂或重复基因组区域的SNP和InDel检测。

与短读长测序技术相比,长读长测序技术成本更低,reads长度更长,可以克服短读长测序无法解决的多个挑战性问题,已成功用于对不同物种的基因组进行测序。但与短读长测序数据相比,长读长测序的精准度较低,检测错误率也更高。有研究表明,利用基于深度学习的算法,在长读长测序数据上可以精确检测变异。根据单倍型数据的分阶段比对可提高变异识别的准确性,现有的三种算法(DeepVariant、Clairvoyante和Clair)在短读长和长读长数据上都能很好地运行单倍型数据比对,但这些算法在SNP检测中都忽略了来自远端单倍型SNP的重要信息。
近日,费城儿童医院王凯教授团队开发了一种新的深度学习算法--NanoCaller,可充分利用长读长测序在基因组区域中检测变异,并在Genome Biology上发表了题为“NanoCaller for accurate detection of SNPs and indels in difficult-to-map regions from long-read sequencing by haplotype-aware deep neural networks”的研究文章。NanoCaller可利用单倍型信息检测SNP,使用称为SNP的长reads进行定相,并通过局部重新排列检测InDel。研究团队利用NanoCaller检测了一个被广泛使用的基准基因组中的41个全新变体,这是此前其他方法无法实现可靠检测,有助于从长读长测序中发现复杂基因组区域的新变体。
图片

文章发表在Genome Biology

NanoCaller是将长读长测序数据与参考基因组的比对作为输入,根据指定的最小覆盖率阈值和替代等位基因频率阈值或插入/删除频率阈值选择候选SNP或InDel位点(图1)。

图1. NanoCaller原理概述。来源:Genome Biology

为评估NanoCaller的性能,研究团队将NanoCaller在牛津纳米孔测序数据中的变异检测性能与Medaka、Clair 和 Longshot这三种现有算法进行了比较。跨基因组分析对于证明变异检测算法的性能至关重要,将基于变异检测算法的机器学习模型在一组基因组上进行训练,并在其他基因组进行测试。结果显示,NanoCaller获得的F1-score高于其他三个算法,表明NanoCaller的性能优于其他算法。(图2a,b;F1-score经常被用来判断算法的精确度,能同时考虑精确率和检测率)

图2. NanoCaller 和其他算法在10个牛津纳米孔测序数据集中的性能。来源:Genome Biology

随后,研究团队将NanoCaller在PacBio测序reads数据上的变异检测性能与三种现有算法进行了比较。结果显示,NanoCaller的表现(图3)优于其他三个算法,显示出更强的竞争力。

图3. NanoCaller和其他算法在10个PacBio数据集上的性能。来源:Genome Biology

研究团队还分析了NanoCaller在特定基因组上进行的SNP调用性能。通过分析Sanger测序结果,研究人员确定了41个全新变异(25个SNP、10个插入和6个缺失)。基于41个新变异,通过不同算法进行了变异识别评估,以了解更准确的长读长测序如何改善变异识别。结果显示,NanoCaller能够正确识别20个SNP,6个插入和2个缺失,其中10个SNP和1个缺失未被其他算法正确检测到。这可能是由于NanoCaller独特的单倍型识别功能,以上结果证明了NanoCaller对SNP检测的强大性能。

图4. NanoCaller检测到的新变异。来源:Genome Biology

对于NanoCalle在InDel检测方面的性能,研究发现NanoCalle可以检测到无法被短读长测序检测到的变异。结果显示,NanoCaller在chr9:135663805处检测到缺失,其他算法在chr9:135663799处检测到缺失。如图6a所示,与几乎没有证据支持缺失变异的短读长测序数据相比,NanoCaller可提供缺失变异的准确信息。

图5. 新缺失变异检测。来源:Genome Biology

总之,该研究展示了一种深度学习算法——NanoCaller,将单倍型结构集成到深度卷积神经网络中,用于长读长测序数据检测SNP,并使用多序列比对重新检测插入缺失候选位点。与其他长读变异检测算法相比,NanoCaller更具有竞争力,并且可以在复杂的基因组区域中检测SNP/InDel,有望促进发现更多新的遗传变异。
参考资料:

Ahsan, M.U., Liu, Q., Fang, L. et al. NanoCaller for accurate detection of SNPs and indels in difficult-to-map regions from long-read sequencing by haplotype-aware deep neural networks. Genome Biol 22, 261 (2021). https://doi.org/10.1186/s13059-021-02472-2

(1)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

热评文章