从NGS测序数据中可靠地检测体细胞突变需要有效处理各种不同条件,如肿瘤样本的非整倍体、克隆性和纯度等。但由于存在读取深度、错误率、突变类型的差异,体细胞突变检测的敏感性和特异性都会随着基因组的变化而变化。
此前的微组装方法已经成功检测长达几百bp的插入缺失突变,可以对较长的突变区域和较短的CNV进行分析。纽约基因组中心(NYGC)的Narzisi研究团队发现,现有微组装方法依赖于肿瘤单独分离组装和匹配的正常数据,存在支持覆盖率低、重复次数较多和无法检测大量短插入缺失突变等局限性。
为解决这些问题,NYGC的研究人员开发了一种体细胞变异检测工具Lancet,能够通过同时分析肿瘤细胞和正常细胞的基因数据准确检测单核苷酸变异(SNV)、插入和缺失突变。近日,相关研究以发表在Communications Biology。
第一作者和NYGC高级生物信息学科学家Giuseppe Narzisi说,他最初在冷泉港实验室开发了一种微装配突变检测工具Scalpel,旨在将组装定位到较小的基因组区域。
据文章通讯作者、NYGC计算生物学高级主管Michael Zody称,该团队的Lancet算法应用了一种称为de Bruijn图表的技术,该技术已被用于转录组装等过程。使用彩色de Bruijn图表联合分析肿瘤和匹配的正常样本的读取数据,可以提高识别肿瘤特有突变的准确性,尤其是插入缺失。Lancet能够在图表中体现体细胞突变状况,为临床确认重要突变提供支持。
使用Lancet生成的含有插入400 bp短序列彩色de Bruijn图。蓝色节点对应于肿瘤和正常样本共有的k-mers,红色节点对应于肿瘤专用的k-mers,绿色节点对应于法线私有的k-mers,白色节点对应于测序错误造成的低覆盖率 k-mers。
在研究过程中,团队在指定区域进行了最佳组装试验,并在图表中添加彩色编码,以便区分突变事件来自体细胞或者生殖系细胞,并将该检测工具与肿瘤诊断中广泛使用的其他体细胞检测工具进行了性能比较。
最初,Zody的研究团队通过在一个样本中引入支持真实生殖系细胞SNV和插入缺失的reads来运行虚拟肿瘤的算法。在了解真实体细胞变异以及样本中的变异等位基因(Vafs)后,在预定义Vafs情况下,研究小组使用虚拟肿瘤测试比较了不同方法对体细胞突变的检测能力。分析发现,Lancet在精确度和回归曲线方面的表现优于其他体细胞突变检测工具,包括MuTect,MuTect2,LoFreq,Strelka和Strelka2。研究小组还使用Lancet对合成肿瘤开展了研究,通过将真正的癌症基因突变人为插入正常reads中,发现Lancet能够更精确的记录体细胞突变,尤其是插入缺失突变。
Lancet与其他方法在虚拟肿瘤中的表现。
NYGC的研究人员随后还分析了一例髓母细胞瘤病例的实际数据。与此前的数据集不同,他们编制了一份体细胞突变列表辅助检测,发现其他检测工具的检测结果更倾向于依赖对数据集的敏感性,而不是特异性,显然它们已经针对高质量数据进行了优化,并且在髓母细胞瘤数据集分析中,它们对微卫星DNA内的假阳性突变检测结果差距非常大,相比之下,Lancet能够在保持敏感性的前提下,只报告很少量的假阳性检测结果。
最后,研究小组分别检测了正常组织、原发肿瘤和结直肠癌转移组织的体细胞突变,发现原发肿瘤中的大部分SNV也可以在转移瘤中检测到,强调了体细胞微卫星DNA的检测问题以及跨不同方法集成插入缺失调用的重要性,同时证明Lancet适用于不同类型的模拟数据集。
Zody介绍到,Lancet将输入样本的全基因组或外显子组测序数据,然后对每600bp基因片段进行并行分析,研究中没有检测单个分析的计算时间。在80x/40x覆盖范围内,分析一个完整的肿瘤和正常基因组大约需要3000小时,但在设计合理的硬件上,并行分析可以在几天内完成。该方法尤其适合长度在几十到几百bp的插入缺失突变检测,而其他体细胞突变检测工具通常检测不到该范围内的插入缺失突变,其中很可能包括致癌基因突变。
在临床研究中,标准做法是优先考虑相关变体,然后使用昂贵的测序技术进行进一步验证,因此研究人员非常希望确保他们考虑检测的突变在患者体内真实存在。而Lancet作为癌症基因组研究迈向更全面体细胞突变检测的重要一步,能够深化人们对中等长度插入缺失突变的重要性的认识,因为此前研究很难发现中等长度的插入缺失突变。
对此,约翰斯霍普金斯大学计算机科学和生物学教授Michael Schatz也发表了看法,此前他曾在冷泉港与Narzisi合作开发Scalpel微组装工具,他认为Lancet能够巧妙识别肿瘤样本中的体细胞变异,效果显着优于其他体细胞突变检测工具,尤其在检测插入缺失突变方面有显著优势。“未来,我期望Lancet能够应用于癌症研究,并推动新型数据算法的开发,特别是长reads和链接reads方面。”
Zody研究团队并没有计划将Lancet使用的算法商业化,仅免费为学术研究提供服务,但他们相信它非常有临床应用价值。
目前,该研究团队主要目标之一是改进核心算法,提高时间性能,精确定位癌细胞发生特定突变的部位,有助于深入了解肿瘤演变。 研究团队计划通过NYGC产生的外显子组测序数据,使用Lancet在结构变异中寻找低水平的体细胞嵌合体。未来,该研究中心还将把Lancet整合到其癌症分析管道中,作为癌症治疗研究工具。
Lancet开源获取地址:https://github.com/nygenome/lancet
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!