资讯

超算平台助力基因测序生信分析跑出“加速度”

在生命科学领域,基因测序技术近年来取得了突飞猛进的进展,在疾病预测、诊断、治疗方面展现出广阔的的临床应用价值和潜力,然而基因测序报告信息量大,解读流程复杂,传统的生信分析方法时间长、效率低,不利于技术的应用普及。随着人工智能的逐步融合,基因测序场景下的超算平台应运而生,可以协助解读生物信息,提高计算效率,实现海量数据存储。

11月29日,由测序中国主办的“数字化时代的基因测序与应用”系列活动第二期“基因测序生信分析之超算平台建设”在线上举行,中科院计算技术研究所研究员、四川大学华西医院生物医学大数据中心特聘专家赵屹,华为HPDA解决方案首席架构师、CCF高性能计算委员会委员李斌杰聚焦基因测序场景下的超算平台建设、应用和价值进行了精彩分享和探讨。

测序中国CEO罗海涛博士在致辞中表示,今年国内外有多个新兴基因测序公司崭露头角,也有多款二代、三代测序平台陆续发布和上市,这势必会加速生命组学大数据的产生和积累。面对海量的数据,如何消化数据、让数据变得有价值至关重要,这不仅依赖于高性能的算力,也需要海量的存储空间。

多模态多组学医疗数据融合计算的临床价值

近十年来,基因组、转录组、蛋白组等领域高通量、大规模的生物技术,从多个维度获取了人类的组学数据,而这些数据的融合有助于还原疾病的本质,帮助我们更好地认识疾病、研究疾病,已经推动了医学的长足进步和发展。

赵屹指出,从计算的角度来看,面向医疗的研究主要有三大类数据,电子病历数据、临床影像数据和生命组学数据。“其中,电子病历数据由医生输入,是人类的高级自然语言,通常采用自然语言的处理方法来结构化、清洗这些数据以得到量化的指标。而对于相对标准化的临床影像数据,已有各种各样的深度学习方法用于辅助临床进行预处理和诊断工作。生命组学数据则是个范畴,覆盖与生命、细胞相关的全部组学数据,一般使用生物信息模型处理单个组学数据。”
通过分析多个单模态数据和多模态数据在临床研究及决策中的实际案例,赵屹总结,对于医学的研究,已经从过去的单一组学、单一模态跨入多组学、多模态的融合计算模式,能够从不同层面对患者的整体情况进行精准画像,人工智能等技术能够最大化挖掘多模态数据中的隐含信息,帮助临床进行疾病诊断、决策和预测。
与此同时,赵屹也强调,多模态医疗数据整合面临着三大复杂的计算挑战一是数据非平衡性,易缺失某些模态数据,影响分析;二是样本数量小于特征数量,具有典型的维度灾难特点;三是可解释性,很难挖掘疾病发生发展的机制。
聚焦医疗多模态多组学数据的智能融合计算研究,赵屹团队基于8个癌种公开数据和通用信息建立了多组学的数据融合模型。在模型研究和应用的过程中,他们发现整合多个模态的数据显著好于任一个单一组学的预测结果,但是如何从数据上证明多组学数据融合一定优于单组学,以及如果有N种多组学数据如何证明Cnn 的组合优于Cmn (m<n)是需要解决也是值得探索的难题。

“基于多组学融合计算方法进行多模态的医疗数据整合,需要通用的模型对临床的各种问题进行多任务的学习并提供解决方案。总而言之,从临床的应用需求出发,到数据整合模型以及算力的支撑,只有结合运用并提高单个步骤的技术水平,才能推动智慧医学的进步。” 赵屹表示。

基因测序生信分析超算平台建设之华为方案

实际上,在基因测序生信分析IT技术蓬勃发展的今天,将测序结果运用大数据技术,人工智能AI技术进行二次分析已经变得越来越普遍。新兴技术的混合复用,多组学数据的建模与分析,HPC+大数据+AI融合已经成为基因测序研究领域的发展趋势

通常而言,基因测序需要经过文库制备、基因格式转换、基因比对、变异分析HPC阶段和AI/大数据辅助诊疗HPDA等环节。李斌杰指出,数据量大、生信分析时间长、业务融合困难是基因测序从HPC向HPDA发展过程中面临的主要难题,也给基因测序生信分析超算平台建设带来了一系列挑战
“这些挑战主要包括由于生信分析过程I/O密集型、CPU密集型、内存密集型等各种软件需求,涉及数据的高速共享与读写检索,对存储设备IO带宽要求高;HPC、大数据、AI多集群的数据融合互通需求;数据长期存储,设备空间占用大、成本高;多套集群、多套计算造成管理、运维、监控复杂;多数据中心数据孤岛,资源难以统一调度分配;医疗基因数据涉及个人隐私,对数据、系统、服务安全可靠要求高等。”李斌杰表示。
据李斌杰介绍,针对上述挑战,华为开发的基因测序生信分析超算平台具备以下特点
一、应用加速依托数据存储加速底座,将人类全基因组测序时长从24小时缩短至7分钟,实现了200倍提速;

二、协议互通。通过一套融合存储资源池多协议互通支持HPC&大数据&AI共享同一份数据,免除数据搬迁中间环节,能够进行基因数据、影像数据、其他医疗大数据等多种业务融合分析;

三、绿色节能。通过存储自研无损压缩技术,压缩率达到主流开源算法1.5倍,提升存储利用率30%,且存储设备通过极致高密设计、热冷数据分级存储,使得TCO降低30%,助力海量数据统一存储;

四、跨域管理。针对多数据中心,多集群设备情况,通过DME一站式数据中心管理平台实现计算、存储、网络资源全生命周期管理。同时运用GFS全局文件系统实现跨域数据全局统一数据视图,实现智能数据调度,调度效率提升3倍。

不仅如此,通过端到端软硬件优化,华为的基因测序生信分析超算平台能够保障数据、网络、软件的安全可靠,从而避免出现使用国外开源软件、开源平台被限制不能获取支持的风险。同时,该超算平台还提供统一运维平台DME,可以将多个超算平台的存储、计算、网络、容器等资源统一管理,实现相比传统模式管理效率的5倍提升。
此外,面对基因测序生信分析超算平台复杂,选型困难,交付周期长的问题,华为设计了模块化硬件组合,能够支持基因测序、遗传分析、智能辅助诊疗等多样化业务,可帮助用户业务上线时间缩短50%
据李斌杰透露,华为基因测序生信分析超算平台方案已经在华西医院生物医学大数据中心、中科院上海高等研究院生物医学大数据中心等广泛应用。“我们希望凭借平台的优势,加速基因测序HPC+大数据+AI创新,推动基因测序行业的数字化发展。
直播中奖名单

华为荣耀耳机*1

潘达   131****7551

鲁四海   177****7368

张波   139****9000

华为AI音箱2*1

李牧   136****8764

(上述中奖人请尽快联系测序君,登记您的地址、电话,以便奖品的邮送)

(0)

本文由 SEQ.CN 作者:白云 发表,转载请注明来源!

关键词:

热评文章