科研

首页 - 全部文章 - 科研 - Nature Biotechnology | 石乐明团队联合发表基于WGS/WES进行癌症突变检测最佳方案研究成果

Nature Biotechnology | 石乐明团队联合发表基于WGS/WES进行癌症突变检测最佳方案研究成果

随着成本持续下降,越来越多的研究人员和临床医生正在使用下一代测序(NGS)技术检测癌症突变。精准肿瘤学的临床应用需要准确的测序,进而将真正的癌症特异性突变与NGS测序步骤中引入的错误区分开来。此外,福尔马林固定石蜡包埋(FFPE)样本常被用于提取DNA,但由于临床样本中的肿瘤纯度不一,对测序仪器和分析工具提出了挑战。

目前,已有部分研究根据突变检测的准确性和一致性对生物信息学流程/检测方法,以及分析开发、文库制备和生物样本资源等其他步骤进行了比较。但迄今为止,还没有批量测序研究如何解决跨位点可重复性的影响,也没有解决影响变异识别的生物学、技术和计算因素。

近日,复旦大学石乐明教授团队与洛马琳达大学医学院Charles Wang教授以及美国食品药品监督管理局Huixiao Hong博士和Wenming Xiao博士合作,聚焦如何开发精准肿瘤医学临床应用的可靠检测方法,从而真正发现有意义的癌症特异性突变而非新一代测序流程中各环节可能引发的技术误差。研究团队开发了一种使用代表性细胞系参考样本和数据集评估NGS性能的系统方案,并在Nature Biotechnology杂志上发表了题为“Toward best practice in cancer mutation detection with whole-genome and whole-exome sequencing”的文章。

为了在基于NGS的肿瘤分析工作流程中检测每个变量的影响,研究团队设计了包括不同生物样本类型、样本量、肿瘤纯度和文库制备方法,以及不同的Illumina测序仪器、测序中心和生物信息学分析方法的一整套系统方案。结果发现,覆盖率和突变检测方法可影响全基因组测序(WGS)和全外显子组测序(WES)的可重复性,WES性能还受插入片段大小、基因组拷贝和基因组全局不平衡评分(GIV)的影响。此外,该研究还介绍了一项具有可操作性的方案,以提高 NGS癌症突变检测实验的可重复性和准确性。图片

文章发表在Nature Biotechnology

为了查明影响检测体细胞变异的因素,研究团队选择了一对匹配的乳腺癌细胞系进行分析。WGS在六个测序中心(诺华,NV;Illumina,IL;复旦大学,FD;欧洲转化医学基础设施,EA;国家癌症研究所,NC;洛马琳达大学,LL),三个测序平台(HiSeq 4000,HiSeq X10 和 NovaSeq S6000)进行。每个样本的测序结果在各中心和平台都存在差异,诺华的覆盖率始终高于其他中心(图1b)。

GIV是DNA损伤的常用指标,因此可用于监测NGS运行中的DNA质量。研究团队在癌细胞系的WES数据中观察到高GIV评分,在FFPE样本的WGS数据中观察到“剂量依赖性GIV失衡”(图1d)。因此,WGS比WES更适合用于FFPE样本检测。

图1. 实验设计和测序质量。来源:Nature Biotechnology

为了评估WES和WGS检测癌症突变的重复性,研究团队使用三个突变检测工具(MuTect2、Strelka2和SomaticSniper)和三个比对工具(Bowtie2、BWA和NovoAlign)进行比对,共检测到108个突变。
BWA和NovoAlign证明了三个检测工具在WGS或WES数据中都检测到大量相同的突变,而Bowtie2比对的WGS往往检测到具有较少一致性的单核苷酸变异(SNV),表明来自Bowtie2比对检测的突变是保守的(图2a)。
接下来,在BWA的统一比对下,研究团队比较了三个检测工具的结果,发现了WES与WGS运行性能的差异。结果显示,Strelka2在WGS重复运行中的重复性最好,在WES重复运行中的重复性最差,MuTect2在WES重复运行中的重复性最好(图2b,c)。综上,WGS性能中最受影响的因素是检测工具,其次是测序覆盖率。
图片

图2. 突变检测重复性比较。来源:Nature Biotechnology 

通过三种不同的文库制备方案和多个文库制备中不同的DNA输入量,研究团队联合三个检测工具和三个比对工具来分析结果。结果显示,对于正常的DNA量,MuTect2的检测比较可靠。对于低输入DNA,Nextera Flex文库制备可能是更好选择(图3a)。另外,当样本经过FFPE处理时,MuTect2和Strelka2的精确度和检测率都大大降低(图3b)。

图3. 影响突变检测的非分析因素。来源:Nature Biotechnology

临床样本测序有时不可避免的要用到福尔马林固定、石蜡包埋的样本,这种处理会使DNA受损,产生伪影(低质量碱基检测)。研究团队使用生物信息学工具Trimmomatic或Bloom Filter Correction(BFC)进行预处理,以评估消除伪影的能力。结果显示,无论哪种工具处理,都会造成伪影(低质量碱基检测)增多,表明在使用生物信息学工具纠正FFPE伪影时应谨慎。

检测准确度取决于检测工具和比对工具的选择,以及它们之间的交互。对于比对读取Strelka2的结果,BWA是平衡的,Bowtie2是保守的,NovoAlign是激进的(图4b)。对于比对质量分数,BWA在50到60之间,Bowtie2在40到50之间,NovoAlign在60到70之间。Strelka2是在BWA比对的基础上训练和建模的,因此在生物信息学背景下最有效。以上结果表明,比对工具和检测工具之间存在联合效应。
接下来,研究团队对基因组分析工具包(GATK)局部indel重新校准以及基础质量分数重新校准(BQSR)的效果进行了评估。MuTect2和Strelka2检测到数量非常相似的SNV(图4c)。相反,MuTect2受到了些许影响,SomaticSniper敏感度高,伴随着一些SNV增加,但损失的更多。
此外,肿瘤的纯度和覆盖率也会影响检测工具的表现,更高的覆盖率可检测到更多的SNV(图4d)。当肿瘤纯度较低(<50%)时,检测对测序深度更为敏感。为了测试检测工具在低肿瘤纯度样本上的表现,研究团队将WGS三次重复运行的reads汇集在100倍覆盖率的样本上,在每个细胞系上产生200倍或300倍的覆盖率。除了该研究中使用的三个主要检测工具外,还加入了另外两个工具:TNscope和Lancet。结果显示,当肿瘤纯度为20%或更低时,提升覆盖率的好处显而易见(图4d)。另一方面,SomaticSniper在任何肿瘤纯度水平上的表现都较差,增加覆盖率并不能挽救其表现。这些结果表明,肿瘤纯度对突变检测的影响比覆盖率更大。

图4. 增强检测的生物信息学分析方法。来源:Nature Biotechnology

在两个复制品中分别出现的同一个突变通常代表着真阳性(高精确度)。MuTect2和SomaticSniper检测的几乎所有突变都是真阳性(图5a)。虽然利用其他检测工具(分析重复)能够提高精确度,但检测率降低了(图5b)。总之,根据精度指标,WGS在复制品、检测和测序中心的表现明显优于WES,证明了在研究设计过程中使用足够的库复制品的重要性,而不是试图通过使用多个检测工具进行补偿。

图5. 生物重复与分析重复。来源:Nature Biotechnology

综上所述,该研究工作通过比较新鲜细胞DNA、FFPE DNA和肿瘤/正常DNA混合物的数据集,确定了影响检测重复性和准确性的因素。研究发现,测序覆盖率和检测工具影响WGS和WES的重复性,但WES的性能还受插入片段大小、基因组拷贝和基因组全局不平衡评分影响。分析重复提高了检测精度,但是以增加假阴性为代价。在需要高特异性和灵敏度的情况下,生物重复比分析重复更重要。该研究推荐了一种具有可操作性的方案,帮助提高 NGS 癌症突变检测实验的可重复性和准确性。

参考资料:
Xiao, W., Ren, L., Chen, Z. et al. Toward best practice in cancer mutation detection with whole-genome and whole-exome sequencing. Nat Biotechnol 39, 1141–1150 (2021). https://www.nature.com/articles/s41587-021-00994-5
(0)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

热评文章