科研

首页 - 全部文章 - 科研 - Nature 子刊 | 从长读长测序数据中检测和定相低频单核苷酸变异的新工具——iGDA

Nature 子刊 | 从长读长测序数据中检测和定相低频单核苷酸变异的新工具——iGDA

研究背景

细胞遗传异质性在多种生物条件下普遍存在,包括癌症、微生物群和多种病原体的混合感染,破译这种复杂的细胞遗传特性对于基础生物学和精准医学的研究至关重要。低频变异是指细胞群中频率低于10%的变异,检测和定相低频变异在破译细胞遗传异质性中起着重要作用。

短读长测序技术因准确度较高,常应用于单核苷酸变异(SNV)的识别,但较少用于从头组装、单倍型定相等远程应用上。由于读取长度的限制,短读长测序不能直接对低频变异进行定相。随着测序技术的发展,这种限制可以通过使用长读长测序来克服。最新的长读长测序技术,例如太平洋生物科学公司(PacBio)和牛津纳米孔公司(ONT)的技术能够在一次运行中测序超过1000亿个碱基,并产生长度超过10 kb的reads。但是长读长测序数据具有相对较高的错误率。

近日,来自美国西奈山伊坎医学院助理教授冯智星博士及合作者在Nature Communications发表了题为“Detecting and phasing minor single-nucleotide variants from long-read sequencing data”的研究文章。该研究创新性开发了一种开源工具—iGDA,可以从原始的长读长测序数据中准确检测和定相频率低至0.2%的单核苷酸变异(SNV),还可以从长读长宏基因组测序数据中准确地重构同一物种不同菌株(差异≥0.011%)的单倍型。 

文章已发表于Nature Communications上 

图1. iGDA的主要步骤。来源:Nature Communications

主要研究内容

检测低频SNV

真实SNV和测序错误的准确区分是检测低频SNV的关键。该研究使用的iGDA可利用多个位点的信息提高检测的精确度。此外,仅依据突变率很难准确辨别测序错误,因此研究人员进一步提出了最大条件突变率(Maximal Conditional Substitution Rate)检测真实SNV的新概念,其取决于在多个“依赖位点”上观察到的突变数量。但由于“依赖位点”数量未知,计算量大,不可能列举所有位点的组合来计算最大条件突变率。为了简化计算过程,研究人员提出了一种名为随机子空间最大化(Random Subspace Maximization, RSM)的新算法,能够有效计算最大条件突变率,还可以避免发生组合爆炸的现象,大幅度提高了检测的准确率

图2.低频SNV是相互关联的。来源:Nature Communications

定相低频SNV

科学家们已经开发了几种工具以利用长读长测序数据中的单倍型信息来检测变异,它们假设单倍型的数量是已知的。但事实上,异质性样本中单倍型的数量是未知的,因此已有工具不能用于定相低频SNV。为了定相低频SNV,iGDA采用一种名为自适应最近邻聚类(Adaptive-Nearest Neighbor clustering,ANN)的新算法,这种算法无需对单倍型的数量做任何假设,即可在对读取数据进行聚类的同时自动估计聚类数。

iGDA性能评估

为了评估iGDA的性能,研究人员在4个聚合的长读长测序数据集上对其进行了测试。每个数据集中汇集的样本数量从65到755不等。结果表明,iGDA可以检测出85.8% ~ 96.7%的真实SNV,错误发现率(FDR)低于1%。同时,iGDA可以在平均准确率为90.7%~98.7%的范围内对低频SNV进行定相。 

图3.在汇集的测序数据中检测低频SNV的准确性。来源:Nature Communications 

图4.在汇集的测序数据中定相低频SNV的准确性。来源:Nature Communications

此外,研究人员还在由11个伯氏疏螺旋体菌株和744个其他细菌物种混合组成的长读长宏基因组测序数据集上测试了iGDA。结果显示,iGDA可以准确区分同一物种的不同菌株,序列差异低至0.011%,并且可以只用一个参照基因组在相互关联的同一物种的菌株中重建单倍型。

图5.从PacBio宏基因组数据中区分不同菌株。来源:Nature Communications

小 结

该研究引入了一种新的开源工具—iGDA,实现了几种创新性的算法,可以同时对低频SNV进行高精度的检测和定相。此外,iGDA还解决了若干具有挑战性的难题,例如构建微生物组样本中菌株水平的基因组序列,以及识别混合感染样本中病原体的基因组序列。iGDA的开发应用使得采用长读长测序技术在更高的分辨率上研究微生物组、细菌共感染和癌症中细胞遗传异质性成为可能。

参考文献
1. Singleton, C.M., Petriglieri, F., Kristensen, J.M. et al. Connecting structure to function with the recovery of over 1000 high-quality metagenome-assembled genomes from activated sludge using long-read sequencing. Nat Commun 12, 2009 (2021). https://doi.org/10.1038/s41467-021-22203-2
2. Wenger, A.M., Peluso, P., Rowell, W.J. et al. Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome. Nat Biotechnol 37, 1155–1162 (2019). https://doi.org/10.1038/s41587-019-0217-9
3. Liu, S., Wu, I., Yu, YP. et al. Targeted transcriptome analysis using synthetic long read sequencing uncovers isoform reprograming in the progression of colon cancer. Commun Biol 4, 506 (2021). https://doi.org/10.1038/s42003-021-02024-1
(0)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

热评文章