二十年前,面对外资企业的丰厚待遇和科研单位抛出的橄榄枝,李蔚教授选择了后者,一头扎入彼时新兴的生物信息学研究领域。如今,他已成为美国贝勒医学院终身讲席教授(Duncan Endowed Chair Professor)、国际著名的生物信息学专家。截止到目前,李蔚教授共发表学术论文160余篇,其中20篇作为通讯作者发表在国际顶级学术期刊Nature、Cell及其子刊上,h-index高达64(有64篇论文的引用至少达到了64次)。无论是彼时备受争议的抉择还是如今的学术荣誉载身,皆源于李蔚教授对未知生命领域的探索热情和对科学研究的责任感。
2017年,李蔚教授成为求臻医学的联合创始人和首席科学家。求臻医学致力于以生物信息学和高通量测序技术为手段,为肿瘤患者提供精准医疗及免疫治疗全套解决方案。近日,测序中国邀请了李蔚教授来分享其学术生涯中鲜为人知的一面以及对肿瘤精准医疗和生物信息学的独到见解。
测序中国:李蔚教授,您本科所学专业为物理专业,是什么机缘促使您走进生物信息学领域,进而成为全球著名的生物信息学家?
李蔚教授:我一直对探索未知世界和新兴领域有着强烈的兴趣。在大学毕业时,我同时收到了宝洁公司的高薪聘书和中国科学院生物物理所博士研究生的录取通知书,最终我选择了后者。对我来说,发现未知世界奥妙的快乐要远高于外企的高薪。在攻读博士学位期间,我非常幸运的师从中国生物信息学第一人——陈润生院士。作为我国生物信息学研究的先行者,陈老师给予了我很多专业指导和学术启发,让我受益终身。在进行博士研究的同时,我还兼任了华大基因生物信息研究团队的副主管,有幸参与了人类基因组计划,并领导了中国第一个细菌全基因组计划。这段经历也让我更加清晰地意识到生物信息学研究的前沿性和重要性,从而更加坚定地继续从事生物信息学研究。
2004年,我赴美国哈佛大学医学院丹娜法伯癌症研究院从事博士后研究;自2008年起,我在美国贝勒医学院从助理教授开始建立自己的独立实验室,一路做到副教授、正教授和讲席教授。
在过去20年间,我的实验室在生物信息学算法软件开发、肿瘤表观遗传学和大规模的数据分析方面做了大量原创性的工作。通过与实验生物学家通力合作、优势互补,我们还从生物信息学的角度去回答了许多肿瘤发展过程中的关键问题。
我们实验室开发的多个生物信息学软件已经成为当前肿瘤大数据分析的常用软件。比如我们在2007年开发的MACS算法,目前已成为ChIP-Seq数据分析的标准算法。该论文自发表后已被引用超过5000次。加上我们发表的其他论文,我们工作的总共引用已超过了3万次, h-index 高达64。
尽管从某种层面上来讲,我当时选择生物信息学有些机缘巧合,但多年的学术积累让我对生物信息学的研究热情与日俱增,对生物信息学的应用前景也愈发有信心。
测序中国:您曾参与人类基因组计划等重大项目,多年来一直将生物信息学和大数据分析与肿瘤等多种疾病的临床研究相结合。您认为生物信息学对于肿瘤研究的价值体现是什么?
李蔚教授:完成人类基因组测序是21世纪初科学界最重要的科研成果之一,为我们提供了一本包含人体30亿对碱基的生命天书,这本生命天书是研究肿瘤、心血管等重大疾病的参考蓝本。生物信息学为测定和解读人类基因组这本生命天书起到了至关重要的作用,迅速推动了肿瘤发病机制、驱动突变捕捉、生物标志物探测等研究领域的变革。
从十年前开始,以Illumina为代表的下一代高通量测序技术将传统的生物医学迅速带入到与大数据交叉融合的时代,也将传统的生物信息学推入了一个向现代综合方法发展的快速通道。随着人工智能、未来网络、虚拟现实等新技术的涌现与发展, 生物医学必将彻底变革为一个定量的计算学科,使我们对生命的认知更加逻辑化、条理化、精准化。通过数据的快速收集与汇交,我们将逐渐绘制一幅完整的生命地图。
基于Illumina测序技术,美国圣路易斯华盛顿大学的Elaine Mardis教授率先提出了利用肿瘤组织与正常组织测序数据对照的研究模式,掀起了肿瘤基因组研究的高潮。肿瘤基因组信息学作为生物信息学的新分支,已成为各大肿瘤基因组数据分析项目的基础核心环节。信息学技术可以识别出包括点突变、序列的插入与缺失、融合、易位以及其他畸变在内的上百万种肿瘤特异性体细胞突变,从而对后续的肿瘤分型、临床诊断、预后判断及免疫治疗起到重要的指导作用。
需要特别指出的是,以美国TCGA项目为例,该项目在顶级科学期刊Cell、Nature、Science上发表的上百篇成果中,约70%的成果来自肿瘤基因组信息学分析。由此可以看出,作为生物信息学分支的肿瘤基因组信息学在肿瘤研究中具有的核心价值和地位。一个合理的预测是,生物信息学在精准医疗中的应用或将引爆生命科学研究的新变革。
测序中国:近日,求臻医学的大panel产品获得了北京市新技术新产品(服务)的认证,这是政府层面对求臻医学产品和技术的认可。同时,我们获悉求臻医学还将基于大panel产品建设中国人群肿瘤数据库。本次获认证的产品有哪些特点?公司在技术层面有怎样的布局?
李蔚教授:本次求臻医学获得认证的是ChosenOne599肿瘤基因检测产品。ChosenOne599是基于NGS平台、IHC及ddPCR平台的最新一代检测产品,涉及肿瘤用药、预后及发生发展相关的599个基因。其建库流程采用UDI+Duplex UMI技术,可实现FFPE或ctDNA样本中低频突变的精准检出。在生物信息学分析方面,我们开发了一站式Local Docker-Based Variant Calling Software变异检测平台,采用了具有自主知识产权的Lotus核心算法,使检测敏感性可以达到96%以上,检测特异性甚至可以达到99.99%。
除检测变异外,该检测产品还能评估包括TMB(bTMB)、MSI及PD-L1在内的免疫治疗关键生物标志物。此次599肿瘤基因检测产品获得权威认定,是对求臻医学产品技术的领先性和市场前景的广阔性的进一步肯定。
求臻医学的技术布局主要基于解决肿瘤精准医疗存在的痛点。目前,肿瘤精准医疗领域的一大痛点在于数据分析缺乏标准化。众所周知,由于生物测序设备、实验流程以及分析软件的不同,不同检测机构提供的测序结果大相径庭。CGAC(中国肿瘤基因图谱计划)项目的主要目的是建立肿瘤样本采集、运输、储存、检测、生物信息学分析和遗传咨询解读的标准化流程,形成行业标准或专家共识,以避免报告解读的差异化。该项目不仅可为业内专家在肿瘤精准医学诊断中提供辅助诊断,也可为制定基于NGS技术多基因panel的国家标准提供确实且详尽的科学依据。
在具体技术方面,求臻医学与国内外科研团队合作成功研发了一系列拥有自主知识产权的分析软件,例如用于RNA-seq数据分析的RseQC,用于甲基化分析的BSMAP、MOABS、Canyons,用于MSI检测的MSIsensor等。尤其在检测免疫治疗关键生物标志物TMB和MSI的核心算法方面,求臻医学具有巨大优势。在大数据处理和流程封装方面,我们采用了目前比较流行的Docker技术搭建Spark服务器集群,并借助Docker高移植性等优势,为医院等下游客户提供一站式的生物信息学解决方案,从而推动生物信息标准化流程的建立。
为实现肿瘤基因组大数据的标准化整合、共享和高效利用,推动科学研究和生物医药产业的协同发展,求臻医学将协助CGAC项目,建立中国人群肿瘤生物样本库、临床数据库以及高通量测序数据库。求臻医学还将基于全新的生物信息学分析和遗传咨询解读的标准化流程建立规范化肿瘤图谱,同时探索开发出一套国人肿瘤数据共享及高效利用的管理机制,为我国科技创新和经济社会发展提供物质保障和服务支撑。
测序中国:您在Nature、Cell等期刊发表文章160余篇,并基于大数据分析提出了“甲基化峡谷(canyon)”概念并用于肿瘤早筛,成为生物信息学推动生物学发展的典范。在您看来,目前大数据在生物领域的应用还有哪些问题需要解决?求臻医学为此做了哪些尝试性努力?
李蔚教授:伴随着大数据“量”的持续增加,我们第一个要面对的是数据存储问题。在未来几年,存储数十亿人、动物、植物和微生物基因组的成本将达到每年数十亿美元。这些数据需要保存几十年,甚至更长时间。正如专用的视频和音频压缩方案对于像YouTube和Netflix这样的流媒体服务至关重要,目前求臻医学正在研发一套专门针对基因组数据的高效压缩方案。
大数据分析的复杂性让我们通常无法从单一组学的数据分析中得出结论。因此,除了需要低成本且高效管理的数据存储管理方案外,我们更多的是需要整合基因组、微生物组、表观基因组、转录组、代谢组、蛋白组甚至是环境科学的研究数据来进行综合分析。从整个生物信息学的发展过程来看,大数据的整合将逐渐成为当代生物医学发展的基础和核心。在某种程度上,可以说现在的生物医学就是计算生物医学。
随着 GPU(图形处理器)、FPGA(现场可编程门阵列)等硬件技术在生物信息领域的成功应用,数据挖掘的效率得到了极大地提升。以这些前沿信息技术为导向的大数据分析挖掘技术已经在国际上取得了一些成功,并成为了生物信息学领域的研究热点。以我们实验室为例,我们目前领导的四个美国国立卫生研究院(NIH)的肿瘤大数据重大项目(每年获得的联邦政府经费超过一百万美元)都是基于大数据分析挖掘技术。
因此在大数据挖掘领域,求臻医学也做出了很多努力和尝试,并已取得了突破性成果。由于大多数癌症中存在大量的基因组甲基化改变。而这些改变往往反映了特定癌症的表观遗传起源。此外,与检测碱基突变相比,成簇分布的甲基化位点拥有更高的信噪比。比如我们首创性的“甲基化峡谷(canyon)”概念就是从泛癌种的甲基化分析当中发现并提出的。我们的研究结果显示,基于canyon概念的甲基化肿瘤早筛技术,几乎适用于全部实体瘤,并具有比其他技术更高的准确度。我们的研究成果已发表在Nature Genetics与Genome Biology等国际顶级学术期刊上。求臻医学也会将ctDNA甲基化检测技术应用于癌症早筛。
近年来,随着测序技术的不断发展和生命数据的不断积累,生物信息学的价值已日益凸显。通过建立生物样本库和信息库,对海量数据的分析可以实现对疾病的精准评估,进而在疾病的监测预防和临床治疗方面取得新的突破。求臻医学在肿瘤基因检测和大数据分析方面已经取得了较大的成果。其产品已覆盖了肿瘤早期筛查、肿瘤靶向药物及免疫治疗药物伴随诊断、动态监测、预后评估及生物信息大数据分析等领域。相信求臻医学的科研团队在李蔚教授的带领下,可以将更多的先进科研成果转化落地,为癌症患者带来更好的精准医学整体解决方案。
本文由 SEQ.CN 作者:王迪 发表,转载请注明来源!