单核苷酸多态性(SNP)和插入/缺失(InDel)是人类基因组中最常见的两种遗传变异类型。在利用新一代高通量测序数据研究基因组变异和基因组功能时,SNP和InDel的检测基本检测项目。目前,已有多种不同算法可用于短读长测序数据中的SNP和InDel分析。但由于这些方法是针对短读长测序数据开发的,因此在错误率高的长读长测序数据上不能很好地运行。此外,短读长测序固有的技术限制使得短读长测序数据不能用于复杂或重复基因组区域的SNP和InDel检测。
文章发表在Genome Biology上
图1. NanoCaller原理概述。来源:Genome Biology
为评估NanoCaller的性能,研究团队将NanoCaller在牛津纳米孔测序数据中的变异检测性能与Medaka、Clair 和 Longshot这三种现有算法进行了比较。跨基因组分析对于证明变异检测算法的性能至关重要,将基于变异检测算法的机器学习模型在一组基因组上进行训练,并在其他基因组进行测试。结果显示,NanoCaller获得的F1-score高于其他三个算法,表明NanoCaller的性能优于其他算法。(图2a,b;F1-score经常被用来判断算法的精确度,能同时考虑精确率和检测率)
图2. NanoCaller 和其他算法在10个牛津纳米孔测序数据集中的性能。来源:Genome Biology
图3. NanoCaller和其他算法在10个PacBio数据集上的性能。来源:Genome Biology
研究团队还分析了NanoCaller在特定基因组上进行的SNP调用性能。通过分析Sanger测序结果,研究人员确定了41个全新变异(25个SNP、10个插入和6个缺失)。基于41个新变异,通过不同算法进行了变异识别评估,以了解更准确的长读长测序如何改善变异识别。结果显示,NanoCaller能够正确识别20个SNP,6个插入和2个缺失,其中10个SNP和1个缺失未被其他算法正确检测到。这可能是由于NanoCaller独特的单倍型识别功能,以上结果证明了NanoCaller对SNP检测的强大性能。
图4. NanoCaller检测到的新变异。来源:Genome Biology
图5. 新缺失变异检测。来源:Genome Biology
Ahsan, M.U., Liu, Q., Fang, L. et al. NanoCaller for accurate detection of SNPs and indels in difficult-to-map regions from long-read sequencing by haplotype-aware deep neural networks. Genome Biol 22, 261 (2021). https://doi.org/10.1186/s13059-021-02472-2
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!