9月6日晚,由测序中国主办的“数字化赋能基因测序”系列活动第一期“数字化时代的基因测序与应用”在线上圆满举办。在本次活动中,北京基因组所/国家生物信息中心荣誉研究员曾长青教授和华为数据存储产品线副总裁顾雪军先生带来了关于海量数据驱动的科学研究及测序产业发展的深刻洞见。
活动伊始,测序中国CEO罗海涛博士在开场致辞中表示,近年来各类组学海量数据不断积累,同时也带来了一系列挑战。信息技术能够帮助我们以更快的速度和更精准的解读处理生命科学和医学领域的相关问题。在这个数字化时代,BT与IT技术的发展现状、前沿进展及发展趋势都将影响基因测序的发展与应用。
大数据是信息化发展到一定阶段的产物。随着信息技术和生命科学的深度融合,全球生物数据呈现爆发增长、海量集聚的特点。大数据相关技术使基因测序数据得以多层面和多维度的有效整合,进而产生更多价值。
在“数据化时代的基因测序与应用——大数据时代与设计”的主题报告中,北京基因组所/国家生物信息中心荣誉研究员曾长青教授表示,二代测序的发展实现了大量基因组数据的积累,奠定了大数据时代的基础。通过对转录组测序、捕获测序、甲基化测序、ChIP-Seq、DNase-seq等技术的简要阐述,曾长青教授指出,借助各种测序前的关键技术,NGS成为了“万用工具”,应用范围大大超出一代测序,能够研究基因结构、调控元件、结合位点、通路网络、分子机制等,带来了生命科学的“组学时代”。通过从基因组到表观组,再到(临床)表型组的超级整合,可以真正实现精准医学的目标,与此同时也带来了数据处理、算法、算力层面的巨大挑战。随着生命数据量级的增大,相对于假说驱动的实验科学,数据驱动的数据科学比重将逐渐增长。
曾长青教授指出,科学、合理的设计是实现大数据价值的必要前提,跨学科的团队合作是大数据时代开展研究的基础。同时,曾长青教授强调,大量数据不等于大数据,测序之外,科研工作者应当对数据分析、设计及合作给予足够的重视。
基因测序场景海量数据处理与分析
的挑战与3大技术突破
随着基因组学和测序技术的发展,大型人群队列研究成为主流,多组学数据分析成为精准医疗与医疗大数据的基础。华为数据存储产品线副总裁顾雪军在主题演讲中指出,人类发现的基因序列数目正以指数级增长,当前最先进的基因测序仪每天每台产生的测序数据已达到6TB,加之生物信息分析过程一般会产生原始数据量5倍左右的中间文件及结果,因此每年需要数十PB的有效存储空间。对于如此庞大的基因数据进行同源性搜寻、比对、遗传发育分析,往往伴随着巨大的数据处理量和并行计算量。基因数据分析过程也会对接多种应用软件,涉及数据高速共享与读写检索,对存储设备IO带宽要求高。
针对如上挑战,华为携手伙伴基于OceanStor Pacific分布式存储联合打造华为HPDA解决方案,三大技术创新助力30X人类WGS胚系变异分析时间从传统的24小时缩短到7分钟:
同时支持GPU、CPU异构计算集群,通过多元异构算力的统一调度,满足基因数据分析过程中不同专用软件、不同计算实例对海量基因数据的分析与挖掘处理诉求;并且通过大内存支持在后期基因序列分析序列对比时将海量数据一次性载入并高效处理。
通过全对称分布式存储架构创新和分布式并行客户端DPC(Distributed Parallel Client)消除单流性能瓶颈,存储单流带宽超过6GBps。面向基因测序过程中产生的海量大小不一的文件,实现大文件直通读写,小文件聚合读写,提升数据访问效率。
后基因测序时代精准医疗升级加速业务转型,临床数据整合处理,病理、基因等多模态数据的整合与分析,需要IT系统同时支持大数据、AI等训练仿真平台。多协议互通可免除中间环节数据搬迁,减少人力成本和数据丢失风险;实现基因数据、影像数据、其他医疗大数据等多种业务的融合分析,大大提升基因分析各流程的效率。
另外华为HPDA解决方案提供的高密容量存储可直接将基因数据平台的容量弹性扩展至EB级,有效解决基因测序业务发展过程中数据存储容量的瓶颈,实现基因数据长时间经济高效保存,实现在线、离线、归档数据自动管理。
基因测序从以前只能在实验室里开展的科研项目,现在也越来越走进了寻常百姓的临床应用。我们希望能通过科技的力量,创造新的基因预防和治疗手段,从“治已病”转向“治未病”,驱动精准医疗能力提升的同时,赋能基因测序基础研究、新兴技术转化应用和产业升级。
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!