基因突变累积导致的基因组不稳定性是癌症的主要促成机制。突变频率的增加缩短了诱导肿瘤发生的驱动基因中2-10个体细胞突变所需的时间。因此,识别体细胞突变的遗传决定因素对于理解和预测个体癌症风险变化以及确定导致肿瘤发生的机制非常重要。
近年来,基于全外显子测序(WES)和全基因组测序(WGS)的大规模测序研究极大地促进了对肿瘤基因组中体细胞突变的分析,包括多种突变类型,例如单碱基取代(SBS)及其嵌入的三核苷酸、双碱基取代(DBS)、小插入和缺失(indels)、拷贝数变异(CNA)和其他结构变体(SV)等。
文章发表在Nature Communications
为分析体细胞突变过程中的个体间差异,研究团队从TCGA、PCAWG和Hartwig三个项目的15,000个肿瘤基因组中提取了56种体细胞突变特征,涵盖SBS、DBS、indels和CNA等不同的突变类型。使用独立成分分析(ICA)、变分自编码器(VAE)这两种不同的降维算法,对特征中的冗余进行消除,将突变特征(通常是相关的)分解成突变成分,使其能够更好地反映潜在的因果机制。(图1)
图1:约15,000个人类肿瘤基因组中的体细胞突变表型。来源:Nature Communications
研究团队开发了联合测试方法“SKAT-O”,将负担测试和SKAT方差测试相结合,SKAT-O的测试统计量是负担测试和SKAT测试的测试统计量的加权和。同时,设计了仅考虑罕见的pLoF突变(显性模型)、罕见的pLoF变体与体细胞杂合度损失(LOH)相结合(加性模型),以及仅考虑相应基因的双亲失活的样本(隐性模型)这三种遗传模型,测试了15个不同模型。(图2)
图2:通过基于基因的联合负担和方差测试,发现和验证与体细胞突变组分相关的罕见pLoF突变。来源:Nature Communications
在发现队列(TCGA)中,研究团队对来自6,799名欧洲血统个体的11,000多个癌症基因组和12种不同的癌症类型进行了关联测试,并对所有15个模型进行了泛癌症分析。通过随机化将观察到的p值分布与随机分布进行比较来估计错误发现率(FDR)。(图3)
结果显示,在发现队列中,研究团队以1% FDR确定了6,488个关联。其中,3,807个关联在与之匹配的癌症类型中具有足够数量的罕见pLoF突变,能够在独立验证队列(PCAWG+Hartwig)中进一步测试。在由4,683名欧洲血统患者组成的独立验证队列中,研究团队以1% FDR复制了207个关联,涵盖42个单基因、15个突变成分、46个独特的基因-癌症类型对和65个独特的基因-癌症类型-成分组合。此外,当FDR为1%时,有七个基因(BRCA1、BRCA2、FANCC、MLH1、MSH2、PALB2和APC)是已知的癌症易感基因,表明影响体细胞突变过程的基因也可能带来癌症风险。
图3. 以1% FDR复制关联。来源:Nature Communications
接下来,研究团队确定了与同源重组缺陷(dHR)相关的基因(RIF1、PAXIP1、WRN、EXO1和ATR)和与DNA错配修复缺陷(dMMR)表型相关的基因(MTOR、TTI2、SETD2、EXO1、MSH3和MLH3)。其中一些关联已在之前的研究中得到证实,如EXO1与dHR和dMMR,SETD2与dMMR,MSH3与不同形式的dMMR。除了与dHR和dMMR相关突变成分的关联之外,研究团队还确定了APEX1与APOBEC诱变(以及dHR)的关联。(图4)
另外,遗传关联区分了两种不同的dMMR突变表型。常见的dMMR特征富含1bp的indels和SNV派生的特征性MMR1突变;这些关联涉及lynch综合症基因MSH2和MLH1以及一些额外的基因(MTOR和SETD2);另一种dMMR富含2bp和更长的indels的突变成分,与其相关的基因包括MMR核心基因MSH3、MLH3、EP300和PIK3C2B。
图4. 网络分析支持罕见胚系变异在体细胞突变过程中的作用。来源:Nature Communications
综上所述,该研究确定了207个涉及15个体细胞突变表型和42个基因的关联,并将MSH3、EXO1、SETD2和MTOR等基因中的罕见遗传突变与两种表型不同的dMMR以及EXO1、PAXIP1、RIF1和WRN等基因突变与dHR相关联。该研究结果突出了罕见遗传突变在人类体细胞突变图谱中的作用。识别影响人类突变过程的其他基因对理解、预防和治疗癌症以及其他体细胞突变相关疾病有重要意义。
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!