近年来,随着病理学技术与人工智能技术的融合发展,已有几项使用机器学习技术的研究报告了对不同癌症类型(如肺癌、乳腺癌等)的显著诊断准确性,这提示高分辨率病理图像中包含未充分利用的生物医学信号,可用于个性化癌症护理。
近日,美国哈佛医学院、麻省理工学院等研究团队合作在Nature Communications上发表题为“Histopathology images predict multi-omics aberrations and prognoses in colorectal cancer patients”的文章。该研究提出一个多组学多队列评估(MOMA)系统,其是一个可表征的机器学习框架,用于大规模分析数字病理图像。研究团队通过MOMA识别和表征了CRC患者的组织病理学的模式、多组学和临床特征之间的关系,成功预测出患者的总生存期(OS)、无进展生存期(PFS)和拷贝数变化(CNA),并鉴定出可预测基因表达谱、微卫星不稳定状态(MSI)和临床可操作的基因改变等的病理组织学模式。此外,MOMA还适用于具有不同人口构成的多个患者群体以及从不同数字化方法收集的病理图像。综上,该机器学习方法提供了临床上可操作的预测,能够为CRC患者的治疗提供参考。
文章发表在Nature Communications
MOMA机器学习框架流程如图1A、B所示,其利用强大的图像预处理(平铺、颜色归一化和特征提取)方法、多实例学习和视觉转换器将全切片病理学图像与所分析的临床及分子特征联系起来,通过组织病理学图像预测癌症基因组学、蛋白质组学和与患者预后相关的临床分子事件改变。该模型基于从来自不同国家患者队列的近2,000名CRC患者中获得的信息进行训练,这些患者队列总共包括超过450,000名参与者,包括TCGA结直肠癌队列(TCGA-COAD和TCGA-READ)、PLCO队列以及NHS和HPFS队列。
研究人员向MOMA模型输入了关于患者年龄、性别、癌症分期和结果的信息,还提供了关于肿瘤的基因组、表观遗传、蛋白质和代谢特征的信息。然后向模型显示肿瘤样本的病理图像,并要求其寻找与肿瘤类型、基因突变、表观遗传改变、疾病进展和患者存活率相关的视觉标记。
图1. 多组学多队列评估(MOMA)机器学习框架概述。来源:Nature Communications
早期CRC患者的生存结果存在异质性,虽然已经提出了许多临床和分子预测因子,但其未能完全解释不同的预后。为应对这一挑战,研究团队使用MOMA来预测I-II期CRC患者的OS(图2)。结果显示,MOMA在TCGA测试集中成功预测了患者的OS;两个预测预后组之间的一致性指数为0.67。
研究团队在NHS-HPFS、PLCO两个独立的队列中验证了MOMA模型,证明了该方法的可推广性。MOMA模型可视化后的结果显示,密集的腺癌细胞簇与较差OS高度相关。基于定量概念的分析则显示,癌细胞区域、肿瘤相关基质以及癌细胞与平滑肌细胞的相互作用都与不利的OS有关。
图2. MOMA使用数字组织病理学图像预测I期和II期CRC患者的OS。来源:Nature communications
接下来,研究团队通过MOMA预测了同一队列患者的PFS。结果显示,在TCGA测试集中,MOMA模型的指数为0.88,在NHS-HPFS队列中为0.6。将数据集细分为结肠癌和直肠癌组后,该方法依旧成功识别了两组的预后差异。可视化结果显示,肿瘤相关基质和腺癌细胞组的形态模式与PFS相关性较高。
图3. 定量组织病理学图像预测I期和II期结直肠癌患者的PFS。来源:Nature Communications
近年来,免疫检查点抑制剂(ICI)治疗的出现极大地改变了许多晚期肿瘤的治疗格局,但仅有一小部分CRC患者可以获得明显的生存益处,包括微卫星高度不稳定(MSI-H)或错配修复缺陷(dMMR)患者。为改善对ICI治疗效果预测的准确性,研究团队使用MOMA预测了每个患者的MSI状态(图4)。结果显示,该方法在TCGA测试集中的AUROC值为0.88±0.06,在NHS-HPFS数据集中的AUROC值为0.76±0.04。相较其他方法,MOMA的AUROC值提高了4%,并显示出组织病理学图像和MSI状态之间的相关性。模型可视化进一步表明,在预测MSI状态时,MOMA着重关注淋巴细胞、基质、粘膜和癌症区域。
图4. MOMA预测结直肠癌患者的MSI状态。来源:Nature Communications
最后,研究团队分析了MOMA利用组织病理学图像预测关键基因CNA、全基因组加倍和BECN1基因过表达方面的性能。结果显示,与常用的基于图像的CNA预测方法(PC-CHiP)相比,MOMA的预测性能显著提升。MOMA还揭示了组织病理学图像模式与BECN1表达水平之间的相关性,其在NHS-HPFS数据集中得到验证。
综上所述,该研究设计了MOMA框架,其通过CRC患者的组织病理学图像进行分子表征和临床预后预测。MOMA可从全切片病理图像中自动识别信息区域,而无需详细的区域级注释;其采用了视觉转换器,与标准深度学习方法相比,性能显著提高。该研究结果表明,可解释的机器学习方法可以预测患者的生存结果和临床上重要的分子特征,多队列验证则显示了MOMA的可推广性。总之,该研究为可扩展的组织病理学图像分析提供了一个强大而灵活的机器学习框架,可供研究人员和临床医生免费使用。
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!