科研

首页 - 全部文章 - 科研 - Nat Biotechnol|基于多中心、多平台、高深度WGS的参考调用集,为癌症突变检测提供更高参照标准

Nat Biotechnol|基于多中心、多平台、高深度WGS的参考调用集,为癌症突变检测提供更高参照标准

导 读

体细胞突变检测在癌症基因组学研究和精准医疗领域中的应用非常广泛。但由于缺乏经过充分验证的公开可用的DNA参考样本和参考数据集,无法建立测序框架或对不同算法的性能进行基准测试,体细胞突变检测的质量控制往往存在不足,阻碍了癌症基因组学的发展的应用。此外,变异等位基因频率(VAF)、肿瘤间和肿瘤内异质性、拷贝数变异(CNA)和复杂的染色体重排,也使得准确检测体细胞突变更具挑战性。因此,迫切需要具有高可信度的体细胞突变检测的配对肿瘤-正常参考样本数据。 
复旦大学石乐明团队、美国洛马林达大学医学院Charles Wang研究团队与美国食品药品监督管理局(FDA)Huixiao Hong博士Wenming Xiao博士合作,在Nature Biotechnology上发表了题为“Establishing community reference samples, data and call sets for benchmarking cancer mutation detection using whole-genome sequencing”的文章,发布了国际组学数据质量控制联盟第四期(MAQC-IV,亦为“测序质量控制第二期SEQC2”)的最新研究成果。

研究团队选取三阴性乳腺癌(TNBC)细胞系 (HCC1395)和B淋巴细胞衍生的正常细胞系(HCC1395BL),利用WGS跨越7个测序中心对配对肿瘤-正常细胞系的全基因组进行了深度测序(1500X),最大限度地减少了特定测序平台、检测中心或生物信息学算法的偏差,最终在HCC1395细胞系的整个基因组中创建了高可信度的突变调用数据,即“参考调用集”。此外,研究团队还通过靶向测序、单细胞DNA测序分析等方法对突变调用集进行了验证,提供了具有临床相关注释的高可信度种系和体细胞调用集。 图片

文章发表在Nature Biotechnology

主要研究内容

多个测序平台和基因变异检测方法确保无偏差数据集的产生

研究人员从具有高度异质性的TNBC细胞系HCC1395和与之相匹配的淋巴细胞系HCC1395BL中分批提取gDNA用于研究。为建立高可信度的调用集,研究团队在7个测序中心使用多平台生成了高覆盖率的短读长WGS数据;并使用长读长WGS数据(PacBio)、全外显子测序数据(HiSeq和Ion Torrent)和AmpliSeq(MiSeq)对得出的结果进一步验证。此外,研究团队还通过CytoScan微阵列和10x Genomics单细胞拷贝数变异(CNV)分析揭示了两种细胞系的细胞遗传学特性和异质性。

最初的体细胞突变调用集是从HCC1395和HCC1395BL细胞系的21个重复实验中获得的,研究人员使用了三个比对软件和六个突变调用算法进行基因变异评估,通过SomaticSeq和NeuSomatic对每个突变调用进行评分。此外,两个具有400X覆盖率的9次重复NovaSeq数据和350X覆盖率的WGS肿瘤数据,被用于改善VAF<15%的突变检测;覆盖范围为1500X的NeuSomatic被用来确认和补充所有WGS数据的突变调用。

图1.体细胞突变调用生物信息学分析框架,图片来源:Nature Biotechnology 

体细胞参考调用集和高置信区域的定义和验证

针对63对肿瘤-正常数据分析结果,研究人员使用SomaticSeq对每个突变调用分别进行PASS、REJECT或LowQual分析。通过交叉比对和交叉测序中心的数据,研究团队将每个变体分为:高置信度(HighConf)、中置信度(MedConf)、低置信度(LowConf)和未分类四个置信水平。除了一些与PacBio数据不一致的HighConf突变调用也被降级为LowConf外,集合中的HighConf和MedConf都被定义为“体细胞参考调用集”并被视为真阳性。

HighConf中大多数SNV的VAF>5%。在人工检查之后,研究团队发现大多数不一致的调用实际上很可能是真正的体细胞突变,它们主要由二核苷酸/三核苷酸变化和低VAF变异组成;大多数未分类调用则是复杂的变体。此外,HighConf和MedConf SNV的AmpliSeq验证率很高。

为了确认HighConf和MedConf中的突变调用,研究团队将肿瘤HCC1395 gDNA与正常HCC1395BL gDNA以不同比例混合,生成了一系列混合物来代表不同肿瘤纯度,并以350 X覆盖率进行WGS。肿瘤纯度拟合得分显示,预期VAF和观察到的VAF高度一致;在真实的体细胞突变中,观察到的VAF与肿瘤-正常滴定系列中的肿瘤分数呈线性关系。同时,HighConf和MedConf调用的拟合得分远高于LowConf和Unclassified调用,表明HighConf和MedConf调用比LowConf和Unclassified调用具有明显更多的真实体细胞突变

图2. 体细胞突变参考调用集的定义和验证,图片来源:Nature Biotechnology 

种系变异的发现和验证

随后,研究团队使用广义线性混合模型(GLMM)拟合、合并了各种调用集,通过四个参数(即测序中心、测序重复、比对方法和突变检测方法)的平均值来估计SNV或插入缺失调用的概率(SNV/indel calling probability, SCP)。结果显示,SCP的频率显示出双峰模式,大多数SNV的SCP在<0.1(57%)和>0.9(40%)这两个范围内。多数经过验证的种系变体具有约50%或100%的VAF;相比之下,有相当多低置信度种系的SNV聚集在20%的VAF周围,无法得到验证。

图3. 种系变异的初始定义和验证,图片来源:Nature Biotechnology

HCC1395癌细胞系的异质性

接下来,研究团队利用来自大量DNA的WGS和WES数据以及来自10x Genomics Chromium CNV分析的单细胞数据进行了克隆性分析。分析显示,HCC1395细胞系显示出乳腺癌肿瘤发展的一些典型特征,包括TP53中的克隆驱动突变、17q染色体克隆拷贝中性杂合性丢失(NLOH)和PIK3CA中的早期驱动突变,表明HCC1395细胞系具有异质性。此外,分支系统发育树表明,当肿瘤继续克隆进化时,会在体内或细胞培养中产生两个主要分支(从S2和S8处的节点开始)。

图4. HCC1395细胞系的单细胞克隆分析,图片来源:Nature Biotechnology 

结 语

总上所述,该研究为配对的肿瘤-正常细胞系建立了充分表征的体细胞突变和种系参考调用集,能更好地用于NGS数据的分析、评估和突变检测。该调用集存在两个明显的优势:(1)参考样本使用覆盖度较深的WGS,并通过交叉测序平台进行验证,能够有高可信度的克隆和亚克隆体细胞突变被调用和验证;(2)从378个数据集调用的体细胞突变,经过两个最先进的基于机器学习的体细胞突变分类器(SomaticSeq和 NeuSomatic)整合,构建成一个高可信度的体细胞参考调用集,减少了特定于测序平台、测序站点或生物信息学算法的调用错误。
参考文献:
1. Fang, L.T., Zhu, B., Zhao, Y. et al. Establishing community reference samples, data and call sets for benchmarking cancer mutation detection using whole-genome sequencing. Nat Biotechnol 39, 1151–1160 (2021).
2. Gall, J. G. Human genome sequencing. Science 233, 1367–1368 (1986).
3. ICGC/TCGA Pan-Cancer Analysis of Whole Genomes Consortium. Pan-cancer analysis of whole genomes. Nature 578, 82–93 (2020).
4. Zook, J. M. et al. An open resource for accurately benchmarking small variant and reference calls. Nat. Biotechnol. 37, 561–566 (2019).
5. Auton, A. et al. A global reference for human genetic variation. Nature 526, 68–74 (2015).
(1)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

关键词:

热评文章