基因数据大爆炸时代,正全速袭来。随着新一代组学测序工具不断发展,组学测序不仅涵盖基因组学,还包括蛋白组学、微生物组学、免疫组学等,测序行业的算力需求即将迎来井喷关口。据测算,过去十年间基因测序通量平均每七个月翻一倍,预计到2025年全球测序能力将达到Zb级别(Zetabases),其中,仅人全基因组存储数据量就将达到每年2-40EB(Exabytes)。如此庞大的数据量,单单进行基因比对分析,就要消耗约1万万亿CPU小时数。这让传统HPC集群模式正面临前所未有的挑战:如何存储ZB级别的数据?如何支撑如此量级数据的分析计算?有没有更高效的方式帮助研究者快速深挖海量数据价值?
日前,腾讯健康面向生命科学行业发布了一键上云通用PaaS产品——腾讯健康组学平台(Tencent HealthCare Omics Platform)。该平台具备腾讯云大算力平台,助力基因测序行业生产、分析、应用、交付全流程,解决“算得没有测得快”的业内难题。目前,该平台已率先开启了在基因测序分析通用业务场景的落地,并从定义疾病动态模式到进行精准药物干预等各方面,助力行业形成从科研到产业的完美闭环。
腾讯健康组学平台产品架构
开箱即用:零门槛使用,零成本运维
传统HPC集群模式依赖企业自购设备、自建计算存储集群,其建设、维护、折旧会消耗巨大成本。如果一次性购买基础设施,需要提前规划容量,成本压力大,不够灵活,同时需要创建和管理维护集群,维护集群健康状态,进行扩缩容管理,专业IT人员运维管理等。另外,硬件设备如无法及时更新,也会在业务高峰时出现算力不足的情况,严重影响业务进度,大大削弱企业竞争力。
作为通用型腾讯云Paas产品,腾讯健康组学平台集成满足通用基因测序场景的多个腾讯云Iaas服务,无需部署,开通平台账号,开箱即用,节省了相关设备和管理人员的支出。此外,平台强大的Serverless计算引擎,让用户无需创建和维护管理集群,按业务需求自动扩展规模,运维成本几乎为零。
“千万核”算力弹性算:资源秒级伸缩,成本精准掌控
即便是基因测序技术已经发展到了第三代,获得了更长读长,填补了二代测序技术中的诸多精度问题,成本也更低,但在计算量方面,也比二代基因测序同一流程扩大了近100倍,会产生成各种样本数据、参考文库数据、中间结果数据等,测序文件级别动辄数百GB甚至TB,极易造成测序过程卡顿。并且,基因测序涉及复杂的计算分析,如数据质控、归一化、数据矫正、特征选择、聚类分析、轨迹分析、差异表达分析、基因动力学、亚稳态分析、成分分析等环节,复杂程度可见一斑。因此,每次基因测序都是一个极其考验算力的大工程。
腾讯健康组学平台拥有腾讯云大数据平台千万核算力规模,日实时计算量达百万亿级,日运行容器数超亿级,日计算数据量数百PB。在资源使用上,可实现海量数据的存储、全生命周期数据管理,还能实现算力资源秒级伸缩,满足企业从峰顶到峰谷的计算需求;同时,还能进行细粒度资源管理,动态展示资源使用情况,方便及时调整资源以提高资源利用率。而在成本控制上,更可做到测序结束秒级精准计费,让使用成本保持最优。
自动化智能调度引擎:精细化流程管理,支持续跑、重跑
对于日常生物信息分析场景,避免不了数据参数配置错误或增加修改等各种作业,以前,大多数情况下要等待整个数据分析结束才可以重新下任务,费时费力。腾讯健康组学平台自动化智能调度引擎,很好地解决了这一痛点。
支持流程自动重跑、流程错误挂起、中断恢复、流程重试等功能,满足用户刚需,节约了时间和成本。此外,平台还支持WDL工作流语言自动解析、文件存储结构化归档、命令行\Web服务器投递任务、Web界面可视化任务投递和管理等功能,让流程管理更加精细。
“更自由”的流程编辑:批量管,灵活用,迁移易
传统HPC集群模式下,系统为开发人员自行搭建部署,因此,不同企业或机构检测流程、数据格式等各方面没有统一标准,给数据迁移和版本化管理带来了难度。此外,大多数机构缺少相应的开发、校验,以及可视化配套支持。因此,不仅系统使用体验感会大打折扣,也让基因测序流程执行顺畅度大打折扣。
腾讯健康组学平台除具备状态查询、性能监控、日志收集,具备生信分析系列基础功能外,还提供资源管理器和颗粒度任务管理功能,轻松实现流程批量化管理,带来更好的用户体验。
同时,具备了WDL流程嵌套编辑和模块化管理。流程嵌套编辑能让平台适用各类生信分析复杂的结构;而模块化的构建,可使不同流程模块在不同应用中应用,不仅让流程更具灵活性、迁移性,同时,更让WDL应用复用性更高,即使是开源社区应用也可直接复用。
同时,平台也提供了提供命令行、SDK、API三种产品界面形态,并可自由切换,让诸多习惯“敲代码”的用户也能方便使用,大大提升了用户的操作体验。
伴随基因检测技术成熟与服务普及,肿瘤基因检测项目或将逐步纳入医保支付,这给基因测序市场带来了更大的想象空间,仅以肿瘤领域的基因测序为例,预计2025年中国抗肿瘤药物市场和肿瘤高通量基因检测市场规模将达到4162亿元和149亿元。腾讯健康组学平台依托云计算能力的深度应用,将助力组学测序各研究领域高速迈入大算力、智能化新时期,完成数据研究到价值挖掘的高效转化,更好迎接基因数据大爆炸时代。
本文由 SEQ.CN 作者:戴胜 发表,转载请注明来源!