科研

首页 - 全部文章 - 科研 - Nat Commun | 基于肿瘤基因组与表观组特征的整合模型,有效提高cfDNA的癌症诊断及组织溯源性能

Nat Commun | 基于肿瘤基因组与表观组特征的整合模型,有效提高cfDNA的癌症诊断及组织溯源性能

据统计,癌症是造成70岁以下患者死亡的第一大原因。癌症越早诊断、治疗,患者的预后和生存率就会越好。因此,提高癌症的早期检测效率及准确性对癌症患者的生存至关重要。近年来,基于细胞游离DNA(cfDNA)的无创癌症筛查技术发展迅速,其在多种癌症的早期检测和溯源中具有良好的应用前景。

与靶向深度测序相比,全基因组测序(WGS)在检测低负荷疾病方面更敏感。近期研究也证明了在全基因组水平上筛选cfDNA是有效且可行的。依据原始肿瘤图谱,利用全基因组累积信号,可以对微小残留疾病进行超灵敏监测。但这种方法只能追踪患者肿瘤组织的初始突变谱,无法识别从头突变。迄今为止,由于cfDNA的从头突变调用可置信度较低和过滤不准确,cfDNA WGS尚未用于新发癌症检测。此外,与肿瘤相关的表观基因组特征尚未在整个基因组中被充分地探索过,也未曾用于cfDNA的多肿瘤检测。

近期,基因诊断公司GC Genome Corporation研究团队及合作者在Nature Communications上发表了题为“Integrative modeling of tumor genomes and epigenomes for enhanced cancer diagnosis by cell-free DNA”的文章,公布了该公司基于人工智能的新型液体活检技术。该技术使用了先进的人工智能(AI)算法来分析cfDNA和表观基因组的突变密度和模式,其在早期癌症检测和组织原定位中准确性优越。

文章发表在Nature Communications

研究团队首先进行了cfDNA全基因组测序,在MGI和Illumina测序平台上分别以平均5×和2.5×测序深度生成了包含3,366个样本的训练/验证数据集(较大批次的样本作为训练队列,剩余批次用于验证)。其中,患者样本2,125个、正常对照样本1,241个,共涵盖9种癌症类型。此外,研究团队还生成了一个基于20,529个健康样本的cfDNA参考数据集,用于发现真正肿瘤来源的DNA,过滤潜在的生物和技术噪音,以及一个由208个癌症和214个正常对照样本组成的外部验证cfDNA数据集(DELFI数据集)。

接下来,利用开发的“DELFI”算法结合训练数据集,研究团队构建了“基因组模型”和“表观基因组模型”(图1)。基因组模型集成了来自健康队列的大规模参考cfDNA数据以及PCAWG项目的肿瘤组织突变数据,以突变分布作为模型特征;表观基因组模型整合了基于转座酶可及染色质测序(ATAC-seq)的泛癌全基因组染色质图谱,以染色质组织作为模型特征。

基因组模型采用了彻底的突变筛选过程,将筛选后突变集中的局部突变密度(LVD)和突变类型作为模型的输入。为评估LVD模式,研究团队从2,754个组织WGS样本中计算出了癌症类型特异性LMD值,确定了癌症类型特异性高LMD区域和低LMD区域。基于过滤的突变,共计算了2,726个LVD特征和150个突变类型特征,并使用深度神经网络对这些基因组特征进行预测建模。

对于表观基因组模型,研究团队通过处理公共数据库中431个样本的ATAC-seq数据来识别组织特异性NDR(核小体缺失区),以分析癌症类型特异性cfDNA缺失模式。将鉴定出的NDR处的cfDNA片段数据转化为三维V-plot20图像,使用CNN对图像数据进行预测建模。

图1. 基因组模型(左)和表观基因组模型(右)的概念及流程示意图。

研究团队使用上述验证数据集对模型进行了评估,包括基因组模型和表观基因组模型的单独评估,以及两个模型整合起来的效果。

研究团队在每个训练队列中训练和评估了DELFI算法,并通过MGI验证队列和Illumina验证队列验证了模型的稳健性(图2)。基因组模型在两个MGI队列中性能均优于其他所有方法。对于Illumina数据集,基因组模型和表观基因组模型分别在训练和验证队列中显示出最佳性能。在MGI、Illumina两个数据集中,组合模型性能在显示较好

研究团队还在不同分期和癌症类型中评估了上述模型的癌症检测敏感性,发现其检测出I–II期癌症的灵敏度与晚期检测相当,特别是基因组和组合模型。在95%的特异性下,组合模型对MGI数据集、Illumina数据集的敏感性分别为91.1%和79.6%。此外,研究团队通过DELFI数据集证明了模型在早期癌症检测中的优越性:在95%的特异性下,组合模型对I期癌症的敏感性为98.2%

图2. 在癌症检测方面的性能。

接下来,研究团队在超30种肿瘤类型中评估了模型定位起源组织的准确性 (图3)。对于MGI和Illumina队列,基因组和表观基因组模型的性能均优于现有方法,且两个模型的结合进一步提升了性能。此外,对于具有大量样本的癌症类型,模型定位的准确性往往更高。

图3. 模型在起源组织定位方面的性能。

研究团队评估参考肿瘤组织数据和参考正常cfDNA数据对模型性能的贡献(图4)。首先评估了突变过滤的效果,发现突变过滤显著提高了癌症检测和定位的准确性,同时也表明标记潜在的非肿瘤突变对于准确的LVD估计至关重要。在癌症检测和定位方面,具有选定的高或低LMD区域的基因组模型性能优于具有相同随机区域数量的模型

与基因组模型不同,表观基因组模型只能使用选定的区域内构建。在癌症检测和定位方面,使用组织特异性NDR片段化数据构建的表观基因组模型,比使用来自相同随机区域片段化数据构建的模型具有更高的准确性

图4. 肿瘤和cfDNA参考数据的贡献。

研究团队衡量了预测模型中的每个特征对给定实例预测的影响。对用于肿瘤预测的基因组模型,在肿瘤组织突变率较高的基因组区域中识别的cfDNA突变,增加预测给定样本为癌症的可能性。对用于肿瘤定位的基因组模型,在给定癌症类型的区域中,cfDNA样本的高LVD值增加了模型预测这些样本为相应癌症类型的可能性。结果显示,在基因组模型中,样本按特征(即肿瘤或正常)聚类,而非按队列聚类。这些结果证实,基因组模型能够识别肿瘤和正常cfDNA之间的生物学差异,但不能识别由于不同测序平台或实验程序产生的技术偏差

图5. 基因组模型的解释。

研究团队对表观基因组模型进行了上述相同的分析,发现在癌症检测和起源组织定位方面,样本倾向于按特征(即肿瘤或正常)而非按数据来源聚类。与基因组模型类似,表观基因组模型可以区分肿瘤和正常cfDNA之间的生物学差异,但不能识别由于测序平台或实验程序不同产生的技术偏差。

图6. 表观基因组模型的解释。

综上所述,研究团队展示了通过整合大规模参考数据集,以提高癌症检测的灵敏度;其次,发现了对于基于cfDNA癌症诊断有效的基因组和表观基因组特征;并依据该特征构建了基因组模型、表观基因组模型以及组合模型。组合模型检测早期癌症(包括胰腺癌)与晚期癌症的灵敏度相当。该研究从癌症的遗传和表观遗传特征的角度研究了这些特征与肿瘤生物学的相关性,为基于cfDNA的准确癌症诊断奠定了基础,尤其是在早期阶段中。

参考来源:

Bae, M., Kim, G., Lee, TR. et al. Integrative modeling of tumor genomes and epigenomes for enhanced cancer diagnosis by cell-free DNA. Nat Commun 14, 2017 (2023). https://doi.org/10.1038/s41467-023-37768-3

(0)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

热评文章