1879年,世界上第一盏实用电灯在美国密德萨克斯郡点亮,拉开了电气时代的序章;140年后的今天,我们发现自己身处在另一个崭新纪元的前夜。这一次,驱动时代之轮的是人工智能。作为一种旨在模拟、延伸和扩展人的智能的科学,人工智能正在以前所未有的广度和越来越快的速度改变着世界的面貌。而在普瑞基准创始人季序我和梁晗看来,人工智能可以帮助我们更好地回答那些医学中最为本质的问题,对于新药研发、临床诊疗和医学基础研究,都有着不可估量的价值。
那些千百年来困扰人类的难题,隐隐有了解决的曙光。
进入链接,即可观看完整专访视频:https://v.qq.com/x/page/a0896qwwlxt.html
在癌症诊治的过程中,最大的挑战来源于其复杂性。这种复杂性贯穿肿瘤预防、诊断、治疗的始终。如何精准地找到生物标志物从而实现肿瘤的早期筛查?面对肿瘤的异质性以及相关的耐药性,如何为每一位患者选择最有效的药物或药物组合?对于近年来发展迅猛的肿瘤免疫治疗,如何找到真正有效的人群,并且避免超进展/副作用?
为了能够更加全面、准确地掌握患者个体的肿瘤特征,各种新兴的高通量、高精度的检测技术被应用于这个领域,如多组学检测、单细胞测序、液体活检等等。随之而来的是数据的井喷式增长。目前,国际上最有影响力的肿瘤多组学研究项目无过于TCGA,作为参与TCGA项目的核心科学家之一,梁晗对于大数据和生物信息有着深刻的见解。梁晗提出,海量、多层次、高维的大数据就像水陆毕陈、各式各样的食材,固然丰富,却容易不知如何下手,优秀的生物信息学家就像大厨,能够取其精华,匠心独运,做出色香味俱全的佳肴。换言之,生物信息不仅是分析肿瘤大数据必不可少的手段,也是新药研发、临床诊疗过程中,进行关键决策的有力武器。
当我们把目光转向制药行业,新药研发效率降低已成为医药公司难以回避的严峻考验,具体表现为研发成本的持续增加,研发回报率的持续降低。在普瑞基准创始人季序我博士看来,解决之道在于:新药研发流程中的关键决策,需要做得更早、更准确。“靶点是否靠谱,biomarker选得对不对,是否选择了最优的适应症,联用方案合理吗……这些关键性判断,药企也希望尽早、尽量正确地得到答案——如不能尽早做出正确判断,结果就是项目后期失败,浪费大量的时间和成本。但是,实际要做到‘尽早、尽量正确’,是很困难的。比如,目前‘+ PD-1单抗’的联用试验这么多,究竟多少有足够的支撑?在‘完美的世界’里,药企可以靠预实验把所有不确定的假设都100%验证之后,再做出决策。但是受限于时间、成本,也迫于竞争压力,实际情况下,很大程度上依靠经验往前推,决策依据不足,那么新药研发的后期失败(所谓spectacular failure)层出不穷也就不足为奇。我们认为,近年来快速积累的海量数据不用起来,实在太可惜。要依靠数据挖掘来辅助决策,‘向数据要知识’。”充分运用数据挖掘和人工智能算法的生物信息技术,将是突破行业效率困局的关键,能够为新药和新型诊断产品的研发提供强大的支持。
季博士回顾了现代制药业一百多年的发展历程中两个至关重要的时间窗口,其一是十九世纪下半叶,伴随着现代化学理论成熟,现代化学制药业发轫,如果我们穿越各种并购重组溯源而上,会发现,现今几乎所有的化学制药巨头都萌芽于这一时期;其二是二十世纪七十年代末至八十年代初,在短短五六年间成立的生物制药企业构成了如今的行业巨头,推动这一次浪潮的是分子生物学技术领域的突破。
那么当时钟走到二十一世纪第三个十年的开端,前所未有的海量生物大数据的积累能否实现量变到质变的转化,创造出生命科学的崭新范式,催生制药行业的第三次深刻变革?季序我给出了肯定的回答。他认为,蓬勃发展的数据科学为生命科学研究提供全新视角和分析工具,谁能够快速地具备有效的数据挖掘能力,谁就将在科学研究和产业转化上占据先机。
曾是顶级投行分析师的季序我,看到的是一个历史性的机会。“深刻地参与行业的变革,重塑行业形态,这种机会也许一辈子只有一次,绝不能错过”。因此他选择亲自下场,说服梁晗,组建团队,打造一家独特的人工智能和大数据驱动的转化医学公司。分析师与科学家联手,要融合“数据科学”与“肿瘤生物学”,将大众眼中属于基础科学的“生物信息”跨界应用于“新药研发”的产业实践。
前路漫漫,道阻且长。对先行者的考验,刚刚开始。
首要的问题,是如何利用多组学数据,增进我们对于癌症发生、发展这一复杂的生物学过程的认知,从而提升新药研发过程中决策的准确性。癌症多组学是梁晗博士重点研究的领域之一,过去几年,他在这个方向上已完成多个重要研究,其成果发表在Cell、Cancer Cell、Nature Biotechnology等顶尖期刊,共计十余篇重磅论文。梁博士结合自身深度参与TCGA等项目的经历,阐述了多组学数据对于癌症治疗的重要意义。
不同于常见的基本局限于单一组学(如基因组)的研究,TCGA致力于实现对肿瘤患者的全景式组学描述。这种全面性既体现在数据维度的丰富——整合了基因组(基因突变、拷贝数变异等)、转录组、蛋白质组、表观遗传等层面的信息,也体现在癌种的广泛——基本涵盖了所有主要的癌症类型。类似的研究项目为肿瘤驱动基因和药物靶点的研究提供了全面的数据,有助于新药研发选择更有效的靶点。
通过多组学分析,研究者可以细究:基因组的突变能否与蛋白组学层面的变化相互印证?拷贝数变异是否导致了转录层面某些通路的上调或下调……这些问题都可以在多组学数据中找到答案,让我们对于疾病机制的了解更加细致入微。
作为一个新兴领域,多组学数据分析面临着规范化、标准化等诸多挑战。担任美国国家癌症研究所(NCI)基因组数据库质控组共同主席的梁晗,在肿瘤多组学研究的国际大型项目中积累的经验,成为普瑞基准团队搭建自己的大数据平台和人工智能系统的宝贵财富。随着一个个关键技术节点顺利突破,普瑞基准在产业化的道路上持续前进。
企业要立足,核心技术和产品至关重要,对于普瑞基准来说,这个核心是AI驱动的、基于大数据挖掘的知识发现系统——AIBERT。季序我博士向记者详细讲解了该系统的构成,及其如何服务于药企的肿瘤新药研发。系统分为四个模块:AIBERT_Target用于更高效地寻找新的药物靶点;AIBERT_Biomarker则针对更有效的生物标志物;AIBERT_ Combo基于普瑞基准的独特策略,依靠AI算法,探索更合理的药物组合;AIBERT_Trial则率先将适应性临床试验方案设计(例如基于贝叶斯模型的方案)服务带入国内,通过独特的方案设计,协助药企压缩临床试验规模、加快新药获批速度、提升获批成功率。这些功能同样也高度符合医生的需求。“回到医疗健康的本质,”季序我强调说,“不论是药企还是临床医生,都希望找出最优的治疗方法,而AIBERT正是为解决医疗本质问题而打造的一把利器。”
与顶尖医院的合作,佐证了季序我的论点。举例来说,PARP抑制剂的问世,包括SOLO-1研究数据公布,给关注卵巢癌(以及其它可能获益癌种)的医生和患者很大的振奋。已知PARP抑制剂疗效与HRD(同源重组缺陷)相关,但系统性的HRD研究和数据积累是缺乏的,尤其在国内。普瑞基准依靠AIBERT系统设计了国内首个HRD score模型,并与北京协和医院合作开展“中国上皮性卵巢癌人群基因组同源重组缺陷状态研究”项目(EOC-HRD)。该项目是国内首个HRD大型研究,借助普瑞基准的HRD score模型,将全面绘制中国卵巢癌人群的同源重组修复(HRR)基因突变谱及HRD表型谱,形成中国肿瘤患者第一个大型HRD数据库,并建立PARP抑制剂的药效预测模型。
再如,胃癌患者手术前是否做新辅助治疗,是困扰每位主治医生的问题——根据粗略的统计,有约40%患者难以从新辅助化疗中获益。普瑞基准与北京大学肿瘤医院合作进行胃癌新辅助治疗标志物相关研究,基于大规模的多组学数据,借助人工智能算法构建定量化的预测模型,发现多个独特标志物,此前未见报道,可有效预测患者采用新辅助治疗的有效性,帮助医生和患者判断治疗方案对于患者的临床受益情况。
在季序我看来,解决真实的问题——包括新药研发的效率,以及临床诊疗中的实际需求,才是创新的价值所在。医药健康产业,无论是基础研究、新药研发、还是临床诊疗,都将在人工智能的助力下迈上新的台阶。
随着季序我和梁晗深入浅出的讲述,我们逐步理解了多组学数据挖掘在医疗健康产业的潜力。可以看到,离开了多组学大数据的支撑,在其上搭建的生物信息和人工智能系统将成为无源之水、无本之木;而没有了生物信息和人工智能技术的有效应用,对海量生物医学大数据的处理和理解将不可避免地陷入“盲人摸象”的境地,难以阐明肿瘤背后复杂的生物学机制,并找到创新的诊疗手段。
最终,基于多组学大数据,在人工智能和知识发现系统的强力支持下,我们尝试去回答医学的根本问题:肿瘤的本质是什么?如何给予最精准有效的治疗?
一个崭新时代的篇章,刚刚开始。
本文由 SEQ.CN 作者:戴胜 发表,转载请注明来源!