癌症的脆弱性(合成致死性)可通过功能性遗传和小分子筛选进行系统研究。为减少患者组织样本带来的局限性,癌症脆弱性研究常用癌症细胞系分析其生物标志物,并进行深度分子特征分析、功能基因和药理学筛选。迄今为止,癌症脆弱性生物标志物主要来源于基因组和转录组测序,但人们对蛋白质组中的癌症脆弱性研究以及癌症蛋白质组在不同组织和遗传环境中受到调节等方面知之甚少。
目前,精准肿瘤学研究已取得较大发展,但基于癌症的复杂性和基因组学仍无法准确预测蛋白质组,进而无法为患者的临床护理提供充足的信息和指导。现有的技术和方法已经实现了对数十、数百个细胞系中数千种蛋白质的标准化定量,以及对来自微小组织活检临床样本的分析。但癌细胞系的蛋白质组学定量往往受限于癌症类型或分析的样本数量。
来自澳大利亚悉尼大学、英国韦康桑格学院的研究团队合作在Cancer Cell上发表了题为“Pan-cancer proteomic map of 949 human cell lines”的文章。研究通过质谱分析对来自28种组织类型、949种细胞系的8498种蛋白质进行量化,将多组学、药物反应和CRISPR-Cas9基因必要性筛选与深度学习框架相结合,绘制了泛癌细胞系蛋白质组图谱,揭示了数千种在转录水平上并不显著的癌症易感性蛋白质生物标志物。该泛癌蛋白质组图(ProCan-DepMapSanger)是一个综合资源,可在https://cellmodelpassports.sanger.ac.uk获得。
文章发表于Cancer Cell
为构建泛癌蛋白质组图谱,研究团队利用应用数据非依赖采集质谱(DIA-MS)对来自28个组织类型的949种人类癌细胞系的蛋白质组进行了量化,绘制ProCan-DepMap Sanger泛癌蛋白质组图谱,扩展了癌细胞系模型的现有分子特征(图1)。通过将数据与先前发表的包含相同细胞系的较小子集蛋白质组学数据集进行比较,发现所有数据集之间的相关性水平相当,表明该研究生成了一个高质量、生物学可重复的人类癌细胞系泛癌蛋白质组图谱。
图1. 949种癌细胞系蛋白质组数据。来源:Cancer Cell
接下来,研究团队定义了一组严格的蛋白质定量并进行可视化,发现造血细胞和淋巴样细胞能显示出更多的亚群。研究团队选择了一组存在于不同细胞类型的279种蛋白质进行研究,其主要来自造血、淋巴、周围神经系统和皮肤细胞。
结果显示,与其他蛋白质相比,在不同细胞类型中富集的蛋白质在转录组和蛋白质组之间具有更高的相关性,表明这些蛋白质在转录和翻译之间有更加保守的细胞类型特异性过程(图2)。以上结果证明了蛋白质组数据与细胞谱系的总体一致性,揭示了与某些癌细胞类型起源一致的蛋白质表达模式。
图2. 蛋白质组学特征揭示细胞来源类型。来源:Cancer Cell
为确定在整个细胞系中观察到的不同蛋白质表达模式的关键驱动因素,研究团队利用多组学因子分析(MOFA)捕获了额外的蛋白特异性信息。在观察到蛋白质复合物丰度的转录后共调控之后(图3),为了解共调控蛋白的丰度能否用于预测假定的蛋白质-蛋白质相互作用(PPI),研究人员评估了所有可能的成对蛋白质相关性。
结果显示,部分旁系同源物和蛋白质复合物亚基具有较强的相关性。研究团队使用多种数据库(CORUM,STRING, BioGRID等)对其进行了系统性地评估,发现与转录组学和CRISPR-Cas9基因本质性特征相比,蛋白质组学测量(proteomic measurements)检出已知PPI的能力更高,表明PPI和协同调控容易被蛋白质组学方法捕获。
图3. 不同癌细胞类型的转录后调控。来源:Cancer Cell
为识别蛋白质组独有的生物标志物关联,研究团队开发了一种基于深度学习的计算框架“DeeProM”。DeeProM由DeepOmicNet提供支持,能优先考虑药物反应和CRISPR-Cas9基因重要性(图4)。DeeProM评估了所有可能的药物-蛋白质和CRISPR-蛋白质关联,以确定在细胞系亚群中同时具有良好预测和选择性的癌症脆弱性,最终共发现7,698种药物-蛋白质关联和5,823种CRISPR-Cas9-蛋白质关联。与仅考虑基因表达的模型相比,DeeProM的预测性能显著提高。
图4. 识别癌症脆弱性的生物标志物。来源:Cancer Cell
研究团队通过DeeProM在组织类型水平上确定了1,538个CRISPR-Cas9-蛋白质关联、108个药物-蛋白质关联(图5),证明了蛋白质组学测量对于发现癌症生物标志物具有重要意义。研究团队还比较了蛋白质组和转录组数据对药物反应和CRISPR-Cas9基因重要性建模的预测能力。结果表明,蛋白质组学和转录组学的预测性能相似,蛋白质组学可以提供转录组学无法捕获的额外信息。
图5. DeeProM鉴定的蛋白质生物标志物。来源:Cancer Cell
为确定模型中使用的蛋白质数量如何影响预测能力,研究团队通过随机采样分析预测药物反应,每一步减少500种蛋白质。结果显示,随机选择的1500种蛋白质子集能够提供完整数据集88%的预测能力(图6),意味着可量化的蛋白质随机部分足以代表参与介导关键细胞表型蛋白质组的基本元素。
随后,研究团队在蛋白质网络的背景下对药物-蛋白质和CRISPR-Cas9-蛋白质的关联进行了DeeProM分析,在药物和CRISPR-Cas9靶标及其蛋白质强度之间发现了最强的整体关联。此外,CRISPR-Cas9-蛋白质关联显示,PPI网络中与目标蛋白质接近的蛋白质比距离较远的蛋白质具有更强的关联性,但许多看似功能无关的蛋白质(在PPI中离扰动目标两步以上)也表现出显著的药物-蛋白质和CRISPR-Cas9-蛋白质关联。
图6. 蛋白质子网络对癌细胞表型的预测能力。来源:Cancer Cell
综上所述,ProCan-DepMap Sanger是一个大型泛癌蛋白质组图谱,提供了超越现有分子数据集的多种见解。该图谱量化了949种人类癌细胞系中的8498种蛋白质,代表28种组织和40多种组织学上不同的癌症类型和广泛的基因型,显著扩展了癌症模型的分子特征。此外,研究团队还开发了基于深度学习的DeeProM,其性能始终优于其他机器学习方法,对蛋白组学数据在精准肿瘤学中预测癌细胞的脆弱性具有重要意义。
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!