蛋白质互作网络对于确定体细胞突变的优先次序和预测未表征蛋白质的功能至关重要,但现有许多相互作用是在非癌症环境中发现的,其与癌症的相关性尚不明确。近期的研究试图通过分析特定癌细胞系中蛋白质的相互作用来解决这一问题,但全面无偏倚地分析不同癌症类型中的蛋白质相互作用仍充满挑战。
研究团队纳入了来自11个肿瘤队列的质谱蛋白质组学数据和RNA-seq数据,涉及1,194名患者的肿瘤样本。通过对于每个蛋白质组学和RNA-seq数据集进行分析,研究团队发现蛋白质组学数据比RNA-seq产生更高功能相关性。
研究团队还探究了肿瘤数据集中mRNA和蛋白质共表达模式与基因协同功能的关系,发现虽然蛋白质和mRNA的相关性都表明基因协同功能,但蛋白质相关性是一个更强的预测因子。
图1. 蛋白共表达是基因协同功能的强有力预测因子
此外,研究团队利用监督机器学习并将其与蛋白质组学和RNA-seq数据集中各种预测信号进行整合,构建了一个全面的功能网络。特征重要性分析显示,肿瘤蛋白特征贡献最大,其次是肿瘤mRNA、正常mRNA和正常蛋白。通过进一步筛选出高可信度的基因对,最终生成了一个包含10,525个基因和196,800个节点的功能关联网络——FunMap。
与其他网络相比,FunMap存在大量独特功能关联,其边缘连接的60-74%基因是肿瘤中显著过表达或低表达的基因,这显示出FunMap与癌症的强关联。此外,FunMap还具有相对较高的平均聚类系数、相对较高的密度等。总之,FunMap具有高功能相关性、癌症相关性和蛋白质组覆盖率。
图2. FunMap具有高功能相关性
癌症蛋白质基因组学的一个主要目标是了解体细胞突变如何影响癌症蛋白质组。研究团队使用机器学习方法同时分析了FunMap中所有重要突变对单个功能模块的影响,发现32个模块在预测丰度和实际丰度之间存在非随机相关性,这表明这些模块的突变状态与蛋白质丰度密切相关。
在所有32个模块中,TP53是最重要的预测因子,而其他基因特定于某些模块。总之,FunMap有效地将体细胞突变与各功能模块中的蛋白质丰度相关联,并能识别出关键突变基因,有助于揭示未被充分研究的癌症蛋白。
图3. 将体细胞突变与功能性蛋白质模块联系起来
基于图神经网络(GNN)的深度学习,研究团队还开发了一种正样本未标记学习算法,该算法集成了FunMap网络,并从CPTAC队列和已知的癌症基因中提取基因突变显著性评分。研究团队借助上述算法训练了一个图注意力网络模型(GAT),用于将未标记的基因分类为癌症或非癌症基因。
性能评估显示,FunMap GAT模型的分类准确性优于不使用网络数据训练的随机森林分类器,其AUROC提高了6.5%,AUPRC提高了27.8%。此外,FunMap在识别低突变频率基因作为假定癌症基因方面也具备有效性。
图4. 利用FunMap发现低突变频率的癌症驱动因子
FunMap通过结合机器学习和蛋白质基因组分析的优势,提供了一个全面且无偏颇的蛋白质组学覆盖和高水平的功能相关性,可更深入地了解复杂的癌症系统,为体细胞突变和癌症相关蛋白研究提供了有价值的见解。同时,FunMap作为一种补充方法,丰富了蛋白质互作网络研究,扩展了功能基因组学研究的系统生物学框架。
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!