癌症可以由多种不同的基因突变引发、驱动,但这些突变往往集中于有限的通路或信号传递过程。由于驱动基因突变提供的预后信息有限,全面了解不同的基因突变如何干扰中枢通路对精准医疗和识别特异性生物标志物至关重要。
近日,美国科罗拉多大学医学院的研究团队在Genome Biology发表了题为“Widespread redundancy in -omics profiles of cancer mutation states”的文章。研究团队比较分析了TCGA泛癌症图谱中的组学数据类型,并评估其作为癌症基因突变的多变量功能读数(readouts)的作用。分析结果表明,相对于癌症类型校正基线,基因表达数据能够对大多数基因的突变状态提供良好的预测;对于多数基因而言,多种数据类型几乎具有同等有效的预测能力。与使用单一数据类型的性能最高的模型相比,将数据类型组合到单个多组学模型中进行突变预测的方法几乎没有性能优势。这一研究结果对未来指导癌症功能基因组学的研究具有深远意义。
文章发表在Genome Biology
主要研究内容
图1. 整体研究模式图。来源:Genome Biology
研究团队评估了几种不同基因集的基因表达数据对突变状态的预测性能,并将其作为基线。先前实验已评估了TCGA中前50个最容易突变的基因,此次,研究团队试图将其扩展到更广泛的基因集列表中(图2)。为评估使用已知的癌症相关基因是否有助于提高预测性能,研究团队从前期的研究结果和数据库中总结了268个癌症相关基因。
结果显示,来自癌症相关基因集的基因比随机选择的基因或通过总突变数选择的基因更具可预测性。选定的癌症相关基因集中约45%的基因具有统计学显著的可预测性;随机基因集中仅有5.22%的基因、突变最多的基因集中29.9%的基因有显著可预测性。上述结果表明,依据对目标基因参与的癌症途径和过程的先验知识来选择突变预测的目标基因,而不是通过随机或仅基于突变频率,可以提高预测性能,能够从基因表达数据中识别出具有更高可预测性的突变。
图2.三个基因集的总体性能分布。来源:Genome Biology
接下来,研究团队比较了TCGA泛癌图谱中五种可用的功能数据类型(因为有两个DNA甲基化平台,所以共六个readouts)。在总结癌症相关基因集中的所有基因时观察到,与其他数据类型相比,基因表达数据往往能产生更好的预测。此外,在个体基因水平上,相对于置换基线,33/217个基因的突变可从RPPA数据显著预测,microRNA数据中有25/217个基因,突变特征数据中有2/217个基因。
图3. 不同数据集的预测性能比较。来源:Genome Biology
在构建描述每个基因在不同数据类型中的预测性能热图时,研究团队发现许多基因可以被多种数据类型很好地预测。在至少被一种数据类型进行良好预测的86个基因中,60.5%能够被多种数据类型成功预测,这意味着多组学readouts包含相应基因中存在/不存在突变的可检测特征。上述结果表明,对于许多具有明确功能特征的强大驱动基因,不同的组学数据可以提供相似的信息内容,因此数据类型选择并不重要。在大多数情况下,相较不同的数据类型,这些基因往往是影响较大的预测因素。
图4. 不同数据集的预测性能比较。来源:Genome Biology
最后,研究团队训练了“多组学”分类器,并在不同癌症类型中预测了6个经充分研究和广泛突变的驱动基因,即EGFR、IDH1、KRAS、PIK3CA、SETD2和TP53。对于6个目标基因,最好的单组分类器和最好的多组学分类器之间的性能相当,并无显著差异。此外,在不同的分类器和数据类型中,研究团队发现了基于目标基因的不同模式。例如,对于IDH1和TP53,无论数据类型如何,性能都是相对一致的,这表明其基线性能较高,数据的增加几乎没有改进的空间;对于EGFR、KRAS和PIK3CA,整合基因表达和甲基化数据的预测性能与基因表达数据的预测性能相同或更差。总体而言,与最佳单个数据类型相比,以相对简单的方式组合数据类型,几乎没有改善预测能力。
图5. 单数据和多组学数据预测性能的比较。来源:Genome Biology
结 语
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!