此前,加州大学圣地亚哥分校Ludmil Alexandrov博士团队开发了突变特征De novo提取算法SigProfilerExtractor,该算法使用复杂的数学方法来扫描癌症患者的测序数据,从中重新提取突变特征。SigProfilerExtractor可以识别出有效突变特征的数量,及其在每个样本中的活动以及概率。
SigProfilerExtractor概述
近日,Ludmil Alexandrov博士团队对SigProfilerExtractor进行了全面的基准测试,研究结果发表Cell Genomics上,文章题为“Uncovering novel mutational signatures by de novo extraction with SigProfilerExtractor”。SigProfilerExtractor和其他13个突变特征提取工具在34个不同场景中的比较表明,SigProfilerExtractor对噪音具有很强的鲁棒性,并且突变特征De novo提取方面优于所有其他计算工具。将SigProfilerExtractor应用于全基因组泛癌分析项目(PCAWG)发布的2778个全基因组测序(WGS)和19184个全外显子组测序(WES)数据,揭示了四种新的突变特征。
文章发表在Cell Genomics上
研究团队对突变特征De novo提取的工具进行了基准测试,利用携带已知突变特征的超过60000个合成癌症基因组和20000个癌症外显子组数据,这些合成数据分类为32个无噪音场景和两个有不同噪音水平的场景。此外,基准测试中还包括一个全基因组SBS-96场景,以及一个全外显子组SBS-96场景。
图1.使用SBS-96无噪声场景对用于突变特征De novo提取的生物信息学工具进行基准测试。
总体来说,在包含60%人类癌症类型的无噪声WGS场景中提取的所有突变特征中,SigProfilerExtractor的表现优于所有其他工具。SigProfilerExtractor能够多识别10%到37%的真阳性突变特征,产生的假阳性突变特征员少于其它7个工具。
图2.对用于突变特征De novo提取的前八种生物信息学工具的评估。
为了证明其产生新的生物学结果的能力,SigProfilerExtractor被应用于PCAWG项目中最近发表的2778种癌症WGS数据。此外,研究团队将SigProfilerExtractor应用于另一个1865个WGS数据和19184个WES数据的扩展队列,包括癌症基因组图谱(TCGA)以及261个其他已发表的研究和35个不同的ICGC项目的数据。与PCAWG突变特征的分析过程相同,研究团队在每种癌症类型和所有样本中进行了12次突变特征提取。除了所有之前检测到的特征,SigProfilerExtractor在PCAWG数据集中发现了三个新的突变特征:SBS92、SBS93和SBS94。此外,在扩展队列中还发现了一种新的突变特征:SBS95。(图3)
图3.在4643例WGS和19184例WES数据中发现了新的特征。
除了在模拟数据集上优于其他13个工具外,SigProfilerExtractor还可以揭示更多的生物学结果。重要的是,SigProfilerExtractor可识别出SBS92信号,膀胱癌患者和正常膀胱尿路上皮活检显示该信号吸烟有关。研究团队和其他先前对TCGA外显子测序膀胱癌的研究分析中并没有发现SBS92。利用SigProfilerExtractor重新分析TCGA膀胱癌WES数据也无法检测SBS92。因此,研究团队猜测TCGA膀胱癌数据中缺少SBS92信号是由于使用了WES。随后,研究团队证实WES无法识别SBS92突变特征。
研究概述图
综上所述,研究团队对提取突变特征的生物信息学方法SigProfilerExtractor进行了最大的基准测试,证明SigProfilerExtractor优于其他13种工具。此外,研究团队将SigProfilerExtractor应用于4643例WGS数据和19184例WES数据,揭示了四种新的突变特征。SigProfilerExtractor为突变特征分析提供了一个参考工具。
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!