近年来肿瘤的免疫治疗和药物研究有了突破性进展,与此同时,对于肿瘤免疫机制理解的不足,也导致了部分免疫治疗药物临床试验的失败。肿瘤免疫基因大数据挖掘作为解决该问题的突破口之一,已成为肿瘤免疫领域的重要热点,基于基因大数据的精准医疗时代已然来临。
势在必行:基因大数据赋能临床肿瘤免疫诊疗
那么如何解决这一系列的难题?孔德举先生认为大数据技术是解决这些难题的关键之一。从数据的角度来看,世界本质上由数据构成,生命也不例外,生命的底层逻辑就是数据处理,理论上,当我们掌握了足够多的数据,就可以为生命的一些关键过程进行数学建模。信息技术和测序技术的发展,让大数据技术在精准医疗领域成为可能。
免疫疗法是肿瘤治疗领域最具前景的发展方向,目前已有多种免疫疗法获批用于不同肿瘤的临床治疗,但只有少数肿瘤患者通过这些治疗得到了持久的免疫应答和生存获益。如何为肿瘤患者选择最合适的治疗方法成为免疫疗法普及临床应用的一大挑战。
针对肿瘤免疫治疗临床决策,孔德举先生强调,该领域面临的现实难题有很多:首先是免疫标志物繁多,包括肿瘤突变负荷(TMB)、微卫星不稳定性(MSI)、肿瘤新生抗原负荷(TNB)、ITH、HLA LOH、PD-L1、CD8以及免疫疗效相关基因突变等。面对诸多标志物,以哪个为准?尤其是标志物间出现冲突的用药提示时,该如何决策?当涉及免疫联合治疗时,这些问题可能变得更加复杂。第二是标准问题。不同科研单位及企业对TMB在内的多个生物标志物的定义和计算逻辑不尽相同,这造成很多科研结论的可重复性问题,数据间的整合和比较分析也变得更加复杂。第三是解读问题。不同公司的数据解读逻辑不尽相同,甚至有医生将同一个患者的肿瘤样本送到不同公司进行检测,会获得完全不同的用药提示,这无疑对临床医生和患者造成了更多的困扰。
迎难而上:搭建肿瘤免疫基因大数据平台
裕策生物i-See大数据平台
在数据治理上,面对多维度多层次的复杂数据,由于没有成熟的数据标准可以参考,如何有效地组织多种来源的数据成为一道门槛,为此裕策生物联合临床医生、数据技术公司建立了一套面向免疫诊疗数据治理的企业标准,即IGDS(Immunity Genomic Dataset Standard),从技术及实用性上规范各个维度的数据录入标准,极大提升数据质量。
随着数据规模的不断增加,面对动辄几个PB生物信息数据,此时算力成为一大瓶颈。为此裕策生物与阿里云、亚马逊云合作开发了具有弹性算力支持的混合云分析平台YC-Cloud2,建设了高速网络专线,可以同时支持多个云平台。峰值计算时,YC-Cloud2平台可以完成每小时500T原始数据的计算能力。孔德举强调该技术对其他协议以及一些公司也具有重要借鉴意义。
齐头并进:深入挖掘和解读基因数据
利用裕策多组学技术平台为个体免疫状态多维度综合评估
DeepIO是裕策生物在大数据领域的第一个尝试,旨在解决临床端最迫切的问题,即如何为肿瘤患者选择最优的免疫治疗方案。为此,裕策生物利用人工智能技术,结合i-See的大量的多维度数据,开发了一款免疫诊疗综合评估模型(DeepIO)综合评估患者免疫特性,并推荐治疗方式,辅助医生进行治疗决策。“基于裕策生物数据库(包含公共数据),我们已初步对该模型进行训练与迭代,目前已经取得了很好的成果,其对应的数据比单个的标志物更全面,对个体的免疫状态评价也更准确。目前已经开始推进与临床医生的合作,期待更多的医生加入DeepIO的研发与验证队列收集中,”孔德举先生谈到。
新生抗原(Neoantigen)是连接肿瘤基因组和T细胞免疫反应的桥梁,是实现肿瘤精准免疫“诊”“疗”产品转化的关键。裕策生物通过模拟新生抗原在体内产生的生物学过程,依据大数据和深度学习模型,开发了高质量新生抗原筛选算法——TruNeo。它可以帮助找到具有免疫原性的高质量“真”新生抗原,其方法学文章于2020年11月发表在BMC Bioinformatics杂志上。TruNeo算法已经经过技术性能验证、临床性能验证,与TESLA(国际新生抗原筛查联盟)共建neoantigen预测国际标准的一期成果也成功于2020年10月发表在Cell上,共同揭示了个性化免疫疗法的关键。区别于其他肿瘤新生抗原预测算法,TruNeo完全是大数据的产物,是数据驱动的算法。TruNeo可以通过扩充训练数据的方式不断迭代自身算法。TruNeo算法中纳入了多种影响新生抗原生成和表达的影响因子,包括序列信息、HLA分型、亲和力、蛋白剪切等。孔德举先生提到,在最新的TruNeo算法版本中,裕策生物将纳入蛋白结构预测信息,期望进一步优化模型。
裕策的技术团队借助超级计算机和独有的中国肿瘤基因组数据库,使用TruNeo技术挖掘中国人群新生抗原高度相关的基因,开发出YuceOne®——全球首个以肿瘤新生抗原为核心的基因panel。孔德举先生介绍道,YuceOne® Panel包含757个高频产生新生抗原的基因,仅用全外显子组3%的大小来表征肿瘤免疫多个步骤的关键基因区域。结合临床检测数据和天梯计划多年积累数据,裕策生物已经拥有经过实验验证的新生抗原阴阳性数据库、共有新生抗原数据库,能够提高准确预测的肽段数量。同时,裕策生物围绕新生抗原检测及验证技术布局了一系列专利,包括“基于二代测序的新生抗原预测方法、装置和存储介质”、“一种新生抗原免疫原性的测试方法”、“同时检测新生抗原免疫原性和新生抗原特异性TCR的方法”等。
IVI(Intelligent Variants Interpreter in Oncology)是裕策生物在基因变异方向上的最新成果。孔德举先生指出,每个肿瘤基因组中可能存在数百至数千个体细胞突变,部分变异出现在生物学及临床相关、甚至是分子治疗潜在靶标的肿瘤基因中,但并非所有肿瘤相关基因发生的变异均为(潜在)功能性变异,更多的基因变异尚无明确的生物学或临床意义,确定通过NGS鉴定出的多个基因变异(genomic alterations,GA)的优先级排序是一项重大挑战。随着高通量测序分析进入临床领域,产生了大量数据,而如何及时、准确地将测序发现的肿瘤基因组变异信息转化为临床医生可读取并用于指导临床决策的结构化循证报告(structured evidence⁃based reports),正变得越来越重要。
医生在阅读一份NGS报告时应先了解其变异解读依据的证据分级原则及其采用知识库的局限性,以帮助自己更好地理解报告内容。基于人工的变异判读,除了具有效率偏低的缺陷,还对人员的经验具有很强的依赖。为此裕策生物整合了大量公共数据库,采用机器学习技术,开发了IVI变异智能自动判级程序。目前有多个循证分级系统可用于指导基因体细胞变异的临床解读。孔德举先生强调,裕策生物在开发IVI时借鉴了多个国际指南,包括美国分子病理学协会(AMP)/美国临床肿瘤学会(ASCO)/美国病理学家协会(CAP)联合制定的体细胞变异解读指南,欧洲肿瘤内科学会(ESMO)发布的分子靶点临床可操作性量表以及纪念斯隆⁃凯特琳癌症中心(MSKCC)的精准医疗肿瘤数据库(OncoKB)证据等级规则。IVI可以对基因变异进行全面评估,并做出高准确度的致病性判断,通过我们的不断努力,算法判级准确度目前达到了专家级判读水平,成果已在发表中。孔德举先生谈道,依托这些数据模型,裕策生物可以实现对检测数据的准确解读,让肿瘤治疗方案更精准有效,让患者获益。
结 语
孔德举先生透露,裕策生物将在今年的CSCO会议上公布更多的大数据平台研究进展,届时欢迎行业同仁与临床专家参与讨论,合作共创。
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!