近年来,随着组织病理学切片逐渐数字化为全切片图像(WSI),人们也开发了相关的机器和深度学习方法,从WSI中提取与分子特性相关的隐藏形态学特征。WSI的尺寸和分辨率巨大,现有模型多数基于其被裁剪后较小的“切片”开发,无法捕捉图像中多个切片之间的上下关联和层次关系。此外,由于模型复杂度高和数据集规模有限,将最先进的方法应用于WSI仍极具挑战性,如多层感知器、Transformer。
为解决上述难题,美国斯坦福大学医学院的研究人员在Nature Communications发表了题为“Digital profiling of gene expression from histology images with linearized attention”的文章,介绍了一种基于线性化Transformer的深度学习模型SEQUOIA(Slide-based Expression Quantification using Linearized Attention),可以从WSI中预测癌症转录组学图谱。研究团队利用人工智能(AI)从来自16种癌症类型的7,584个肿瘤样本中创建了SEQUOIA;SEQUOIA能够准确预测与关键癌症过程相关的基因的表达水平,可根据复发风险对乳腺癌患者进行分层,解析局部区域的空间基因表达模式。总之,SEQUOIA为大规模推断及分析基因表达模式提供了一种颇具成本效益的方法,有望应用于研究和临床。
文章发表在Nature Communications
研究团队使用癌症基因组图谱(TCGA)中7,584个癌症活检样本的WSI和相匹配的大量RNA-seq基因表达数据开发和训练了SEQUOIA模型,共涉及16种癌症类型包括膀胱尿路上皮癌 (BLCA)、乳腺浸润癌 (BRCA)、甲状腺癌 (THCA)、肾透明细胞癌(KIRC)和肾乳头状细胞癌(KIRP)等。
接下来,通过将上述数据以及成千上万个健康细胞图像在内的其他数据集整合到SEQUOIA中,研究团队验证了该AI模型性能。结果显示,在16种癌症的20,820个基因中,SEQUOIA平均准确预测了15,344个(74%)基因;预测结果良好的基因数量与每种癌症的可用训练样本数量呈正相关。
BRCA中预测准确的基因数量最多(18,878个),同时也是可用切片最多的癌症类型(1,130张);其次是THCA(517张切片)和KIRC(514张切片),分别有18,758个和 17,623个预测准确的基因。相比之下,前列腺腺癌(PRAD)中预测准确的基因数量最少(9,535个),切片数量也最少(202张)。上述结果表明,SEQUOIA模型性能与癌症可用数据集大小(即切片数量)呈正相关。
图1. SEQUOIA模型的工作流程概述
为测试SEQUOIA的泛化能力,研究团队将该模型应用于临床蛋白质组肿瘤分析联盟(CPTAC)队列6种组织的7种匹配癌症类型中。结果显示,相较其他模型组合,在7种癌症类型中SEQUOIA的相关系数更高,为0.503;预测准确的基因数量也更多,平均验证了7,159个基因;在相关系数和均方根误差方面也显著优于其他模型。这些结果表明SEQUOIA的泛化能力较强,适用于不同队列。
此外,为确定SEQUOIA模型中预测准确的基因的生物学功能,研究团队还进行了基因组分析。结果显示,预测准确的基因在几种常见的癌症类型通路中富集,包括T细胞活化、细胞-基质粘附、上皮-间质转化和氧化应激反应,这表明SEQUOIA预测准确的基因主要且特异性地与癌症发生和进展的调控有关。此外,研究团队还确定了几种预测良好的细胞类型标记,包括内皮细胞(CD69, CD93)、 CD4 T细胞(CD3E, CD4, CD48)等,体现了SEQUOIA在捕获肿瘤微环境特征方面的能力。
图2. 通路水平基因表达预测评估
为评估SEQUOIA在临床决策中的实用性,研究团队确定了一个包含272个基因的基因表达特征,这些基因与复发显著相关。类似的基因特征已经在商业乳腺癌基因组检测中应用,例如FDA批准的MammaPrint检测,该检测可分析70个乳腺癌相关基因的水平,为患者提供评分以确定其癌症复发的风险。
进一步,研究团队该模型应用于发现队列TCGA和两个验证队列SCANB、METABRIC中,以证明其在风险分层方面的表现。结果显示,根据SEQUOIA风险评分可将来自三个独立队列的乳腺癌患者分为高风险和低风险两个亚组;与低风险评分的患者相比,高风险评分的患者无病生存期明显更短。这表明SEQUOIA具有通过基因表达预测预测乳腺癌复发的潜力。
图3. 用于预测乳腺癌复发的数字基因表达特征的开发和验证
为使数据易于获取和解读,研究团队对SEQUOIA进行了编程,将基因研究结果显示为肿瘤活检的可视化地图,让科学家和临床医生可以直观看到基因变异在不同肿瘤区域的不同表现;并利用独立GBM和乳腺癌患者队列的空间转录组数据集进行性能评估。结果显示,SEQUOIA为每个基因生成了空间热图以表明其在整个玻片上的表达值,并准确预测许多基因的空间表达。
相比能够可视化活检切片中基因表达的其他工具,SEQUOIA最大的不同之处是集成了数字病理学基础模型,这些模型是在数百万张组织图像上训练出来的大型模型,与GPT、LLAMA和Gemini等流行模型类似。上述结果证明了SEQUOIA在解析异质性肿瘤组织内的空间细胞结构方面的潜力。
为证明SEQUOIA在其他癌症类型中的空间预测能力,研究团队还开发了一个用户友好的交互式Web应用程序 (https://sequoia.stanford.edu),用户可以在其中探索 TCGA队列中预测基因的空间热图。
图4. 切片水平预测的基因表达空间可视化
综上所述,研究团队提出了SEQUOIA,一种用于预测WSI中RNA-seq基因表达数据的深度学习模型。通过将算法进步与对生物学功能、临床相关性和泛化能力的全面分析相结合,该研究证明了SEQUOIA在预测临床相关基因表达模式方面的价值,可为个性化癌症管理开辟道路。
由于未获得FDA批准,目前该AI模型还不能在临床环境中使用。研究团队下一步计划将SEQUOIA部署到临床工作中,并确定它在哪个阶段对医生最有益。Gevaert强调,该工具不仅限于乳腺癌。“使用我们的模型可以预测任何癌症类型的任何基因特征,除运行模型的成本外,几乎没有额外的成本。”
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!