资讯

首页 - 全部文章 - 资讯 - 专访烈冰科技创始人宗杰:“最强大脑”助力科学研究——我与NovelBrain®云计算系统

专访烈冰科技创始人宗杰:“最强大脑”助力科学研究——我与NovelBrain®云计算系统

基因测序技术的发展是开启精准医疗时代的主要推动力,随之而来的测序数据也呈爆炸式增长,精准医疗的到来也开启了医疗健康大数据时代。然而,如何及时获取、高效分析、储存这些庞大的数据是当前急需解决的问题,实际应用中对大数据处理的运算速度、稳定性、可重复性的要求亦迅速提升。应运而生的生物云计算系统吸取互联网大数据经验,在人力成本极低的情况下即可轻松解决数据管理、存储、分析的问题。近日,测序中国采访了烈冰科技创始人宗杰博士。在专访中,宗杰博士详细介绍了烈冰科技的云计算平台——NovelBrain®,并分享了他与生物云计算系统的不解情缘。

源于科研,服务科研

测序中国:作为公司创始人,当初是什么让您选择了生物信息领域,并深耕于此创立了烈冰科技?

宗杰博士:自2009年起,高通量测序技术便逐渐在全国范围内推广并普及,当时正值我在上海交通大学攻读生物学博士学位,导师为生命科学技术学院的张大兵教授。我们课题组当时也开展了一些测序工作。张大兵教授知道我的计算机底子比较强,也对这方面十分感兴趣,便试着让我进行一些测序数据的整理和分析工作。就在这样的契机下,我开始接触到了生物信息学分析这一领域并逐渐深入。

在那个时候,测序公司给客户的结果都太过流程化,而客户的定制化分析需求很多,与技术相匹配的可用软件却是少之又少,使得数据分析结果总是不尽如人意,而这些定制化的需求有着重要意义。于是在2010年,我和创业伙伴一起成立了上海烈冰信息科技有限公司,从事生物信息数据分析工作,希望能够从冰冷的数据中挖掘出具有活力并且有价值的信息。在公司成立不到一年的时间里,我们就帮助客户发表了10余篇文章,影响因子累计达到50多分。

在2012年的时候,ABI发布了基于半导体的单端测序平台,我们在国内第一个引进了半导体测序平台。烈冰科技也顺利完成了从测序服务公司到集生命科学研究与应用研发于一体的科研服务型公司的全面转型,并在2013年协助发表了基于Ion Proton测序平台的第一篇转录组文章以及第一篇Nature文章。

之后,我们又陆续引入了更多的测序平台,在专注生物基础研究的同时,更率先搭建了云端分布式计算及存储系统,并构建了基于自主算法的大数据分析平台及数据库,成功开发了基因大数据分析管理云系统——NovelBrain®

对于创业的初衷,首先这是我个人兴趣所在,软件研发对于我来说是个“新大陆”,一个小程序可以省去大量重复性的劳动,大大提高工作效率,当自己设计的程序运行起来时,所获得的成就感是无与伦比的。其次,市场上对数据分析服务的需求是很庞大的,而且随着高通量测序的普及,有越来越多的数据等待挖掘生物学的意义,这就需要懂生物又懂计算机的人跳出固有的学术圈子,为广大科研工作者提供个性化的定制服务。这是我创业的初衷,也是我们团队一直在坚持的事情。

打造“三位一体”的全产业链

测序中国:目前烈冰科技的业务主要集中于哪些方面?有哪些核心竞争力?

宗杰博士:烈冰科技主营业务涵盖科研服务、云计算和转化医学三大领域,三者是一个整体。首先,科研意味着前沿,科研业务确保我们的技术时刻处于国际领先水平;其次,云计算以互联网的最新IT技术做支撑,为用户提供高效的分析系统平台,方便进行数据挖掘和深度学习;最后,通过转化医学技术,我们将基因和信息技术真正造福于百姓的健康。如果再前瞻一些,当我们积累到大量的临床研究数据,就可以通过云计算进行人工智能挖掘,研发出更有效的医疗产品,更好地服务于大众健康。这样三者能构成一套完整、统一且有实用价值的产业链,真正造福社会。

烈冰科技的核心竞争力是我们的团队。我们拥有完善的生物医学技术团队以及全建制的程序员团队,同时通过引入生物信息专家,使团队有机地融合为一个整体。我们既懂生物医学,又懂计算机;既有丰富的测序服务经验,也有数据分析实力和软件研发能力;并且是国内少数几个能够实现自主开发算法并发表文章的公司。这些最终反映在了我们的云计算平台——NovelBrain®。该平台一方面整合了大量开源和自主开发的分析软件包,另一方面也整合了大量生物信息数据库和疾病健康数据库。同时,我们很清楚的知道科学家和医生他们想要什么,应该怎么样设计交互才能更契合他们的需求。

路漫漫其修远兮,吾将上下而求索

测序中国:您开发云计算平台的初衷是什么?

宗杰博士:在我们公司创立初期,数据分析都是以黑框代码的模式实现的,那时候生物信息工程师非常稀缺,于是我们开发了第一版基于单机的分析系统,使得懂生物的人可以不写代码进行数据分析。当时的目的很简单,就是为了让公司的少数几个生物信息工程师可以把精力放在生物学意义的挖掘上,提高工作效率及公司的服务品质。

在2012年的时候,随着互联网大数据的热潮,越来越多的大数据解决方案也在互联网公司落地,我们认为可以用这种大数据技术帮助解决生物学问题。实际上在2013年上半年,最初版本的云计算系统就已经在公司内部使用了。毫不夸张地说,我们的云计算平台是经过了长期生产环境考验的系统。这一系统经过反复迭代,并逐步扩展功能,最终形成了现在的NovelBrain®云计算平台。

我们希望这套云计算系统在提高生物信息分析效率的基础上,能够帮助科学家发现生命数据中的价值,加速生命科学的研究,同时也希望能为精准医疗提供坚实的技术基石。

测序中国:具体而言,NovelBrain®云计算平台能帮助到哪些用户?

宗杰博士:目前来说,云计算的用户主要为科研工作者、大型科研机构、相关企业以及测序工厂等。其实,NovelBrain®云计算平台不仅可以用于科研工作,进行数据分析,还可帮助企业智能化管理。

对于科研工作者,NovelBrain®云计算平台采用可视化、便捷化的操作,大幅度提升了数据分析的效率,对于不同的物种、群体及数据轻松实现定制化的数据分析;对于医院,平台结合新型的交付模式,整合多个数据库,最终实现一站式的结果报告和解决方案;对于企业管理者,系统打通了erp和数据分析之间的屏障,企业级管理工具支持全球异地办公、多人协作,最大程度调动资源,提高员工工作效率,助力企业快速发展。

在未来,我们希望每一个普通人都能独立使用NovelBrain®系统来解析自己的基因组数据,真正读懂自己的基因。当然这个还需要很长时间的努力,可谓“路漫漫其修远兮,吾将上下而求索”。

弯道超车,后继发力

测序中国:相比Seven Bridges等多个国内外其他公司的生物云计算平台,NovelBrain®有着怎样的独到之处?在技术上我国能否实现赶超国外?

宗杰博士:其实,国内与国外的云计算相比,拥有弯道超车的后发优势。

实际上,从2013年开始,国内外的公司包括阿里云、百度云等都提供了新的计算模式,比如批量计算等。通过新型计算模式,生物云计算的开发和运营变得简单、快速。在此基础上,国内的底层框架与国外相差不大,所以国内外的公司相当于站到了同一个起跑线上,拥有类似弯道超车的后发优势。

而对于NovelBrain®,首先是零代码,完全不懂编程和生物信息的用户都可以轻松上手。其次,烈冰科技积累了多年的数据分析经验和科研优势,NovelBrain®平台可以说是针对生物学意义的挖掘进行了大量优化,所以相比其他的生物云计算平台,我们有更多的生物学意义相关挖掘工具,譬如基因的功能分析、趋势分析、基因调控网络构建、疾病关联等。

此外,NovelBrain实现了目前行业内的几个特色。

国际唯一实现高度定制化分析:我们为NovelBrain®云计算平台设计了高度定制化功能,不仅能新建或修改工作流,而且用户能在分析运行前、运行中、运行后随时修改和运行分析流程。同时平台还提供开放式API接口,支持上线用户自行开发的算法,分析工具可拓展,满足研发需求,真正实现最高程度定制化。

国内首个实现Hadoop-Docker生物信息框架:烈冰科技为了实现NovelBrain®云计算平台的高容错、高可扩展和高可用,选取了Hadoop生态系统中的hdfs、zookeeper、MapReduce和YARN组件,并进行了一系列不同程度的优化,自主搭建了云平台的分布式底层框架。同时采用轻量虚拟化技术Docker,并修改了Hadoop-YARN的底层代码,优化了其对Docker的支持。一方面实现了计算隔离,保证了系统的安全性;另一方面通过虚拟化机制实现分析软件和算法的一致性,保证了数据分析可重现。

国际唯一实现容器级CPU&内存实时监控:我们通过对接Docker和Hadoop-YARN的API,将分析中的任务可视化展现,不仅能直观看到本次分析过程中使用了几个容器进行并行计算,还能监控每个容器每个时间点所使用的CPU&内存信息。

此外,在数据库方面,我们一方面对NCBI、AMIGO、KEGG等经典数据库进行整合,还针对临床整合了CIViC、PharmGKB等数据库,使得基因解读更具临床可操作性。为了构建更大的数据库,我们还同时整合了TCGA等数据库信息,可对大样本数据进行基因信息深度挖掘。

另外,我们还有实验室管理、企业管理等附加功能,我们结合了实验室lims系统和销售订单管理系统,那么一个样本从下单、接收、保存、抽提质检、建库、上机到数据分析以及最后的分析结果和关联医药数据库的一整套流程,在我们系统中都可以从头到尾的监控起来,真正做到完备的质量控制和可回溯。同时我们也初步搭建了一个基于数据分析meta信息的搜索引擎,可以快速地查找录入的数据,并结合公开数据库进行深度挖掘。

人类基因组重测序,实现真正的加速

测序中国:随着测序成本的逐年降低,人类重测序也将越发普及,针对云端加速,烈冰科技有哪些解决方案?

宗杰博士:人类重测序加速是一个比较有意思的技术,实现云计算的加速是人类基因组重测序的重点核心。目前云计算加速可分为三大类技术体系。

第一类就是基于分布式进行开发。将染色体切成小份,譬如分成了第一号、第二号、第三号目标源,然后多个数据在不同的服务器并行计算,最后进行汇总。

第二类是切分数据后基于硬件加速,譬如GPU计算和FPGA等。

第三类方式则是购买国外公司的技术体系并使用相应的软件,按照数据量等与合作方结算费用。

作为一家以数据分析见长的公司,我们认为加速方法还是有必要掌握在自己手中,所以烈冰独创了三重调度加速策略。基于此框架仅需简单配置,即可方便的对多个流程和模块进行切分加速,极大地提升了NGS数据质控、比对、分析等环节的速度。通过这样的优化,不仅可以对人类重测序进行加速,对其他的一些加速耗时比较长的任务,也有一个很好的提速效果,而且核心技术掌握在自己手里。

深耕科研,关爱生命

测序中国:未来,您对烈冰科技有着怎样的发展布局?

宗杰博士:公司会继续保持科研、云计算和转化医学三者统一的关系。目前,烈冰在科研领域已经拥有了一大批忠实用户,科研即是公司立足的资本,通过科研不仅可以为后续的云计算提供资金支持和技术支持,还能保证公司的研发方向始终紧跟国际前沿。

其次是云计算和转化医学。NovelBrain®公有云系统实际于2017年初即完成开发工作,目前NovelBrain®基于这套系统还整合了药物基因组学和疾病相关的数据库。基于云计算和科研开发的一些基因产品也在陆续面世中,未来希望把重点放到转化医学上去。

科研、云计算和转化医学,一方面是相辅相成的公司业务链,另一方面也是全产业的发展布局,转化医学和云计算都是我们的重要产业布局。未来我希望能够将NovelBrain®推广到普通人群中,让普通人也能解码自己的生命,并且通过解码生命的途径促进更多人去关注和关爱自己和家人朋友的生命。

(5)

本文由 SEQ.CN 作者:陈初夏 发表,转载请注明来源!

热评文章