近期,来自新加坡国立大学的研究人员及合作者在Communications Biology发表了题为“PUREE: accurate pan-cancer tumor purity estimation from gene expression data”的研究论文。研究团队开发出一种使用弱监督学习方法从基因表达数据中精确预估泛癌肿瘤纯度的新计算方法PUREE。PUREE可对不同实体瘤类型纯度进行高精度预测,并可推广到来自未知肿瘤类型和队列的肿瘤样本。
文章发表在Communications Biology
研究人员构建了一个训练数据集,包括来自20种实体瘤类型7864个肿瘤的基因表达据和匹配基因组数据。研究人员采用弱监督学习策略训练了一个模型,该模型可以从匹配的基因表达谱中预测肿瘤纯度标记物。
研究人员的目标是这种方法可以适用于不同的实体瘤类型,并与肿瘤DNA数据的正交纯度估计表现出高度一致性(图1a)。因此,在训练模型时,从TCGA的60,000个转录组中,进一步选择并集中于9554个(10 K)高表达蛋白编码的常染色体基因用于模型开发。研究团队探索了一系列机器学习方法的性能,比较表明,一个简单的线性回归模型可以达到最佳的准确性。基于此,最终使用线性回归和弱监督学习策略开发了PUREE,以便从实体肿瘤基因表达谱中准确估计肿瘤纯度。(图1b)
图1. PUREE的概览。
研究团队利用PUREE预测了不同实体瘤类型的纯度,并且可以推广到未知肿瘤类型和队列的肿瘤样本。此外,研究人员使用来自不同肿瘤类型的单细胞转录组测序(scRNA-seq)数据,进一步验证了PUREE的基因特征。在综合基准测试中,PUREE优于现有的基于转录组的纯度估计方法。
但是,在刚开始构建模型时,TCGA训练数据集显示出了强烈的癌症类型和纯度范围不平衡(图2a)。为了减少模型训练过程中这种不平衡带来的影响,研究人员采用了两步特征选择策略:第一步是选择可以在较低和较高纯度范围内预测纯度的特征(图2b)。第二步进一步过滤该特征集,以识别在整个纯度范围内最具预测性的基因,最终产生了158个特征(图2c)。
图2. 特征选择以解释肿瘤类型和肿瘤纯度的不平衡。
除了PUREE泛癌肿瘤纯度预测模型外,研究人员还探索了针对特定癌症类型的训练模型能否更准确地预测纯度,将其性能与PUREE进行了比较。结果显示,PUREE表现出相当且经常相对改善的性能,具有可比的中位数相关性(0.784 vs 0.790)。(图3a),证实了PUREE的泛癌特征选择和训练方法提供了对所有癌症类型的稳健和准确的预测。
同时,研究人员评估了PUREE预测训练数据中缺失癌症类型纯度的能力。通过比较PUREE和从训练数据中删除一种癌症类型的PUREE版本的性能指标,证明了PUREE是稳健的,可以泛化到未包含在训练数据中的实体瘤类型,并且使用缩减的特征集为模型提供了更高的稳健性(图3b)。
图3.PUREE与癌症类型特异性和未知癌症类型版本的比较。
研究人员将PUREE与六种现有的基于转录组学的去卷积和纯度估计方法进行了比较。与其他方法相比,PUREE与共有纯度特征显示出更高的相关性和更低的均方根误差(RMSE)。PUREE在不同癌症类型中的表现差异较小,相关性和RMSE的四分位数范围分别为0.12和0.015。此外,研究人员还评估了PUREE在具有可能不同基质成分的实体瘤类型(例如脑癌和皮肤癌)中的性能。与此前的结果一致,PUREE优于其他基于转录组学的方法,在具有不同基质组成的癌症类型中显示出相当高的准确性。同时,分析表明,在具有极端中值肿瘤纯度的癌症类型上,PUREE优于其他方法。(图4)
图4. 基于TCGA数据比较PUREE和现有方法。
随后,研究人员使用其他7个独立队列(肺癌、结直肠癌、子宫内膜、嗜铬细胞瘤、副神经节瘤、睾丸癌)再次进行了性能比较。与其他方法相比,PUREE与基于基因组学的肿瘤纯度估计通常表现出更高的相关性和更低的RMSE(图5)。在计算时间与内存方面,PUREE始终是最快的,且使用的内存较少。
图5. 独立数据集方法的基准测试。
最后,研究人员使用scRNA-seq数据对PUREE模型中的158个基因特征进行了正交分析和验证,包括头颈癌和黑色素瘤的scRNA-seq数据。结果发现,在这两种肿瘤类型中,这些基因在恶性和非恶性细胞之间表现出显著的表达差异(图6)。与非恶性细胞相比,具有正纯度表达相关性的基因在恶性细胞中的表达显著更高。相反,具有负纯度表达相关性的基因在非恶性细胞中上调。这一结果证实了PUREE所使用的基因特征集具有区分和量化肿瘤中癌细胞和非癌细胞比例的能力。
图6. 使用scRNA-seq数据验证PUREE基因特征。
参考来源:
Revkov, E., Kulshrestha, T., Sung, K.WK. et al. PUREE: accurate pan-cancer tumor purity estimation from gene expression data. Commun Biol 6, 394 (2023). https://doi.org/10.1038/s42003-023-04764-8
本文由 SEQ.CN 作者:陈初夏 发表,转载请注明来源!