资讯

业界资深解读|基因大数据时代,如何看待百亿级的ITBT赛道

笔者初次看到ITBT赛道的概念是在一则某投资机构的报道中。该报告中对于ITBT的概念做出了解释。“ITBT”中,“IT”指代信息科技,“BT”指代生物科技。文章中提及IT将非常有利于刺激BT的更进一步产出,尤其是药物研发等领域。

新兴的ITBT赛道的提出带动了笔者的思考:ITBT是否有足够的体量来形成一个赛道?ITBT赛道中IT和BT是如何互相帮助的呢?有哪些行业中的佼佼者已经在全世界拔得头筹?

于是,顺着这个思路,笔者在收集了部分信息后做出了如下的初探。

基因组数据的百亿级市场

首先,笔者惊讶于ITBT赛道概念的提出,到底有多大的力量能够支撑起来这个独立的细分赛道?

据Illumina报道,截止2019年该公司已经在全球投入了15000套测序系统,当年产生的数据量实现50%的同比增长,达到了150P。同时,2019年华大公布已经在全球完成了1000台以上的测序系统部署,并且在当年正式公开了测序系统T7的第一位装机用户。随着更多测序系统在不同生命科学领域的部署应用,相信将有更大体量的基因组数据等生物数据产出。

我们知道数据的产出依次需要解决存储、计算和应用的问题。现在,我们依次来分析存、算、用这三者的体量有多大。

数据的产出要解决的第一个问题就是存储的问题。2015年7月,Zachary D. Stephens发表在PLOS Biology的文章“Big Data: Astronomical or Genomical ?”中提出,随着测序技术的发展以及测序价格的下降,已经连续数年超摩尔定律增长,最高的数据增长速度达到了每7个月翻一番。持续到2025年,将可能会达到每年产出1 Zetta-bases(4bases = 1Byte)的测序数据,随之产生最高40EB的数据需要被存储。据业内人数估计,随着国产测序仪的陆续部署,中国产出数据量也将增长至全球的20%-30%。考虑备份的因素,由此可估算得出,2025年中国产出的需要被存储的数据量最高可能会达到20EB以上级别,那么基于目前的本地化以及云端存储的大致价格方案(300元/T/年-500元/T/年),仅基因组数据的存储一项最高可能产生出一个约150亿的生物类数据的存储市场。

接下来面临的紧迫问题就是计算的问题了。同样基于前述内容的数据量以及参考Illumina的云平台所发布的30G数据的人类WES需要3美金来计算,阿里云平台一组人类全基因组数据的计算约100人民币的价格来衡量,整体数据仅计算一次就已经超过80亿人民币。如我们所知,平均下来所有的基因组数据计算次数一定是大于1次的。因此,事实上整体的计算市场一定是大于前述的80亿市场的。那么,数据计算的市场也至少是一个接近百亿级别的市场了。

最后,再来考虑应用的问题。基因组数据应用范围非常广泛,被大家所熟知的医学类的华大、燃石医学等,科技服务类的诺禾致源等,以及各类收集数据向制药企业提供帮助的企业等等。一般来说数据应用的市场规模通常是计算存储总和的3-5倍。简而言之,基因数据产生后的应用市场毋庸置疑将成长出一个千亿级的市场。由于基因组数据应用的市场已经有太多的故事和现实数据体现,这里不做赘述。

综上看起来,整体ITBT赛道如果不考虑应用的市场,已经是个超过200亿级别的市场。无疑,这个新兴的赛道在今天已经逐渐形成,作为一个重要的拐点时机非常值得深耕种,足以培养出数家优秀的行业领头羊。

IT和BT如何互助发展

接下里,我们看看,ITBT赛道中IT和BT是如何互相帮助的呢?

同样,从数据体量的角度来看,随着数据量的快速增长,行业中已经有不少机构或者企业陆续涉足数据中心或者云平台的建设。最知名的莫过于2019年6月国家基因组科学数据中心建设任务花落中国科学院北京基因组研究所,以及2020年华西医院为了备战10万人类全基因组检测而启动的大规模数据中心建设。同时,企业为主的数据中心建设也诸多亮相并且启动服务,例如AWS for Genomics,The Seven Bridges Platform等等。这些数据中心或者云平台无疑例外均涉及到了计算资源和存储资源的准备,用行动为未来快速增长的生物数据做准备。

除此之外,难道IT对于BT的帮助仅限于提供更多更大规模的计算设备么?在新的技术领域中有没有帮助到IT,使之成为一个可以被细分出来的赛道呢?

随着对于各类信息的挖掘,不断涌现的新技术打消了笔者的疑虑。众所周知,我们的生物信息计算流程多且复杂。随着数据量的极速增长,传统的方法是基于CPU的算力不断的做叠加以提供更强大的算力支持,这会带来巨大的硬件成本以及运维成本。因此,近几年在生物信息计算领域出现了诸多传统增加CPU线程数以外的新技术和新方法。例如通过进一步改善算法加快计算速度,以及采取FPGA硬件的方法来进行加速计算,软硬件结合的GPU等等。

同时,行业中一直以来对于数据存储和传输有诸多的问题。尤其是当数据达到T级别时,传统做法往往是gzip压缩后再进行硬盘或者网络传输,网络传输也通常基于成本和时效性的考虑可能会考虑专线进行传输。这带来了很多测序和分析以外的额外成本开支,尤其是阻碍了大数据上云端,往往数据上传慢,下载时带宽费用高,用户体验并不理想。基于此,多个更高效的压缩工具应运而生。其中,拥有GTZ压传技术的国内企业人和未来公司,以及近期被Illumina收购的法国Enancio公司,IBM旗下的Aspera等等都是专注于解决数据压缩和传输的企业。根据Illumina的部分观点,数据分析环节的时间成本和人力成本依然高昂,收购Enancio将更加有利于降低数据分析环节的成本,从而加快基因组数据在临床中的应用。

基于前述IT领域专用于BT领域的开发工作来看,这些开发工作将极大的促进BT数据更进一步快速增长。

多家企业布局ITBT赛道

除了以上提到的这些比较引人关注的发展以外,这个细分赛道中有哪些企业已经发现先机,开始做准备了呢?

笔者对其中部分公开信息挖掘发现,海外企业如Illumina在逐步延伸数据领域的布局,陆续收购了采用FPGA加速计算方案的Edico,以及前文提到的专注于存储和传输的Enancio,云平台Bluebee等,横向布局几乎囊括了大数据领域的各个方面。同时,国内企业也陆续进入国际行列,例如FPGA加速计算领域,前文提到的人和未来在2016年就崭露头角。该公司在当年的GCTA风云挑战赛中刷新了世界纪录,成绩不俗。此外,人和未来布局的基因组大数据的计算、存储、传输和应用四个方面,拥有明确的目标。在云平台领域也出现了数家企业,包括从特检跨界来的,也有出身云平台的企业。

对于ITBT赛道的学习和挖掘无疑令笔者看到了一个新的田野,更加令人高兴的是这块田野上跑得最快的不仅仅有老牌的海外劲旅,还有资深的国内行业佼佼者,同时新兴的企业也战力不俗。有这些ITBT赛道的企业持续努力,相信将更快地推动整个生物行业的发展,带来更大的数据量,并且随着国内政策以及生物安全法规的逐步落地实施,国内已经站在拐点上的新兴企业,迎来更广阔的应用场景。在生物数据的加速累计,生物信息数据的加速解读和开发等多个方面成为不可或缺的支撑。

专 家 解 读

赵屹

中国科学院计算技术研究所研究员、中科信息产业研究院精准医学研究所所长

纵观国内外,测序技术已经进入到了临床应用阶段。无论遗传病筛查及诊断、肿瘤伴随诊断还是病原微生物快速检测,都可以看到高通量测序技术给医学发展带来的帮助。而测序技术产生的大体量的数据又是典型的大数据,这些以个体为中心的基因数据具备巨大的潜在价值,未来需要持续挖掘。所以IT技术与BT的结合是必然结果,安全、低成本、快速准确地完成“传、存、算、读”是未来整个行业的刚需。

陈实富

海普洛斯联合创始人&CTO

生命的数字化和数字的生命化是21世纪科技的两大主题。从科技发展的大趋势上看,近几年,IT与BT的融合可以说是越来越紧密。一方面,生物科学越来越离不开计算。虽然湿实验在大多数生物研究中仍然不可或缺,但干实验的重要性越来越高,甚至很多时候会直接决定一个项目的成败,也有学者表示:“当今一切生物学都是计算生物学”。另一方面,人工智能的快速发展,让IT设备和系统越来越智能化和拟人化,仿佛被赋予了生命。这一科技大潮的核心燃料是生命科学大数据爆炸,而这又带来了存储和计算的巨大需求。为了满足与日俱增的生命科学大数据存储计算需求,我们需要开发更优的IT系统,为生命科学大数据的高质量产生,高效压缩存储和高性能处理提供引擎,这就是ITBT的核心价值所在。选择ITBT这一个赛道,需要对BT的业务细节非常知晓,同时又需要具有非常高的IT开发能力,这无疑提高了赛道的准入门槛,所以真正能够玩得转的玩家,目前还不会特别多。虽然目前ITBT的生态中还没有很多企业找到很好的业务变现模式,但是,我相信在不远的将来,相关价值终归还是会兑现,并且是长久地兑现。

潘峰

海云基因创始人兼CEO

本文对于ITBT赛道做出的诸多思考都非常有价值以及启发性,比较全面地为我们进行了结构梳理以及对未来方向的展望。行业中有许多不同背景公司同时在此领域中进行发展能够更好地促进行业进步。如今是一个行业融合、企业优势互补合作的时代,对企业的技术背景需求范围越来越广。正如ITBT赛道,就是一个不同知识技术领域融合从而产生的新赛道。公司技术背景多种多样,有助于整体生态的多样化持续发展,并在其中碰撞出更多更有启发性的火花,从而促使行业走得更快更好。而如何将不同技术背景的公司进行有效地联合,也是我们接下来要面对的问题之一。如果企业能够尽可能多地吸收多种技术背景的人才,以及和行业相关上下游企业尽可能多地进行交流互通,都会成为日后发展的强劲助力。

扫描下方二维码,参加有奖调研

本文仅代表作者本人观点,不代表本平台立场

(0)

本文由 SEQ.CN 作者:陈初夏 发表,转载请注明来源!

热评文章