科研

首页 - 全部文章 - 科研 - Nat Commun |基于多组学整合分析鉴定七种癌症风险相关的组织特异性甲基化标志物

Nat Commun |基于多组学整合分析鉴定七种癌症风险相关的组织特异性甲基化标志物

DNA甲基化在调控基因表达、维持基因组稳定性方面发挥着重要作用。异常的DNA甲基化模式,如全局低甲基化和基因特异性高甲基化,是癌症的标志之一。除环境因素外,DNA甲基化也受遗传因素影响。因此,解析组织特异性遗传预测的DNA甲基化有望揭示复杂性状(包括癌症易感性)的遗传易感性。
此前,美国弗吉尼亚大学综合癌症中心研究团队已在血液中发现了1343个CpGs,其基因预测DNA甲基化水平与癌症风险相关,但组织DNA甲基化数据的缺乏阻碍了对其在癌症相关组织中的评估。近期,在Nature Communications发表的一项新研究中,该研究团队确定了与癌症风险相关的组织特异性DNA甲基化生物标志物。
研究团队开发了可预测七种组织类型基因组中CpG位点DNA甲基化的统计模型,并将该模型应用于癌症GWAS数据,推断遗传预测的CpG甲基化与乳腺癌、结直肠癌、肾细胞癌、肺癌、卵巢癌、前列腺癌和睾丸生殖细胞癌风险之间的关联。对于识别的癌症风险相关CpG位点,研究团队通过整合DNA甲基化组学、转录组学、基因组学和癌症GWAS数据进一步探索其是否通过调控邻近基因的表达影响癌症风险。
01 组织特异性DNA甲基化预测模型

经过处理的DNA甲基化数据,包括来自GTEx联盟的987个无癌供体样本中的754,054个CpG位点的BMIQ标准化β值。经过筛选,研究保留了来自367名受试者的856个样本(主要为欧洲裔和非洲裔),包括49个乳腺、189个结肠、47个肾脏、190个肺、140个卵巢、105个前列腺、47个睾丸、47个全血和42个肌肉组织样本。

图1.研究总体工作流程和数据资源。

对于特定组织内的每个CpG位点,研究团队使用两种方法开发了预测模型,保留了预测性能最好的模型。分析发现,跨组织模型的预测性能显著高于单组织模型。在研究的754,054个CpG中,478,360个(63.4%)的模型具有可靠的预测性能。值得注意的是,这些模型中46.8%是高度组织特异性的,只有3.2%在所有组织中普遍存在。最终,研究团队分别建立了101497个乳腺模型、197947个结肠模型、125745个肾脏模型、195764个肺模型、187911个卵巢模型、152341个前列腺模型和118568个睾丸组织模型。

随后,研究团队评估了与使用单个最佳顺式mQTL相比,利用多个顺式变异的预测策略能否提高预测性能。对于通过该研究方法建立可靠模型的每个CpG,研究团队尝试利用与预测方法相同的数据构建仅基于最佳顺式mQTL的模型。在7种组织中,单个最佳顺式mQTL方法仅能为33.1%的CpG建立可靠模型。此外,对于通过该研究方法和单一最佳顺式mQTL方法均建立模型的CpG,该研究方法的预测精度始终高于后者。

02 组织特异性DNA甲基化与癌症风险的关联

对于7种组织类型,将预测模型应用于相应癌症的GWAS数据,以鉴定具有遗传预测DNA甲基化水平与癌症风险显著相关的CpGs。研究团队在7种组织中识别出了4248个与至少一种癌症风险显著相关的CpG位点(图2),其中4052个(95.4%)特定于某种癌症类型。
通过共定位分析,在4461个CpG-癌症对中,1454对(32.6%)和866对(19.4%)表现出中等至高的共定位概率。在这4461个CpG-癌症对中,4210对CpG分布在先前GWAS分析鉴定的801个(56.5%)癌症易感位点中的453个,其余的251对CpG分布在73个位点上,距离GWAS鉴定的任何癌症风险变异至少1Mb(图2)。总之,研究团队在56.5%的已知GWAS基因位点中发现了大量DNA甲基化可能介导癌症风险遗传效应的CpGs,揭示了55个假定的新基因位点,并在52个已知GWAS基因位点中检测到独立于GWAS识别的风险变异的关联信号。
值得注意的是,对于研究发现的453个已知含有癌症相关CpGs位点中的31.6%,TWAS无法发现任何显著的关联。与TWAS相比,该研究方法在检测GWAS识别位点内关联信号方面具有更高有效性。

图2.曼哈顿图显示CpG基因预测的DNA甲基化与癌症风险之间的关联。

03 多组学整合分析

为了进一步理解上述显著CpG位点在癌症风险中的作用机制,研究团队进行了多组学整合分析。研究团队将CpG位点与GTEx数据中的基因表达和DNA甲基化数据进行整合,评估它们是否通过调控邻近基因的表达来影响癌症风险。多组学系统分析显示,在4248个显著CpG位点中,有854个(20.1%)CpG-基因-癌症三联体,在每个三联体中,CpG-癌症、CpG-基因和基因-癌症的关系呈现一致的方向。这些三联体涉及309个独特的CpGs,其DNA甲基化通过调控205个不同的顺式基因的表达来影响7种癌症的风险。这些CpG-基因-癌症三联体的发现,为理解DNA甲基化在癌症病因学中的作用提供了新见解。
此外,研究团队还评估了这些显著CpG位点是否与已知癌症相关基因的表达调控相关。结果显示,在4248个显著CpG位点中,有265个(6.2%)位点位于已知癌症相关基因的启动子区域,且这些位点中的大部分(85.3%)与相应基因的表达显著相关。这进一步支持了这些CpG位点在癌症风险中的潜在调控作用。

图3.CpG-基因-癌症三联体分析表明DNA甲基化通过调节顺式基因表达来影响癌症风险。

综上所述,研究团队开发了用于预测7种组织中CpG位点DNA甲基化的遗传模型,结合相应癌症的全基因组关联研究(GWAS)数据,识别了4248个与癌症风险显著相关的CpG位点,其中大部分与特定的某一种癌症类型有关。此外,该研究还发现了一些新的候选基因位点,并通过多组学整合分析,揭示了DNA甲基化在癌症风险中的潜在调控作用。该研究果强调了多组学整合在癌症生物标志物发现中的有效性,并增强了对遗传学和表观遗传学在癌症病因学中关键作用的理解。未来的研究可进一步探索上述显著CpG位点的功能和机制,为癌症的早期诊断、预防和治疗提供新思路。

论文原文:

Yang, Y., Chen, Y., Xu, S.et al. Integrating muti-omics data to identify tissue-specific DNA methylation biomarkers for cancer risk. Nat Commun 15, 6071 (2024). https://doi.org/10.1038/s41467-024-50404-y

·END·

(0)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

关键词:,

热评文章