疫情时代,重磅新书!
新冠肺炎疫情的突然来袭,使全世界陷入了一场无声的战争,也让人们认识到了生命科学研究的重要性。在这样的背景下,彭绍亮教授团队贡献出他们在生物医药与大数据交叉领域十余年科研工作的结晶,出版一部推动生命科学和大数据、人工智能技术交叉融合发展的新著作,恰逢其时。
随着高通量测序技术凭借其优良的测序性能和低廉的价格在生物领域中被广泛应用,基因组数据经历了爆炸式的增长。在生物医学研究和应用需求的推动下,包括国际千人基因组计划、ENCODE、modEN-CODE、The Cancer Genome Atlas、Human Microbiome Project等在内的大型生物医学项目不断推进,基因组数据以每12~18个月10倍以上的速度增长,其积累速度远超过摩尔定律所揭示的计算机硬件发展速度,具备典型的大数据特征。除了基因组学,蛋白质组学、生物医学图像、药物虚拟筛选等领域也有急速增长的数据处理和分析需求,这都为生物医药大数据技术带来了严峻挑战,同时也为这个典型的交叉科学领域的研究人员带来了前所未有的机遇。
如此大规模和复杂的数据,需要高效的存储、挖掘、分析、可视化等技术才能应对和处理。其高效处理包括两个重要方面:首先是加快处理和分析的速度,其次是改善数据处理的易用性。对于前者,通常采用大规模并行处理技术;对于后者,云计算技术提供了成熟的解决方案。
生物医药大数据的成功应用与人工智能有着密不可分的关系,而深度学习等技术的成功很大程度上得益于大数据技术的发展。生物医药与人工智能结合的关键在于“算法+有效数据”。先进的机器学习算法能提升数据处理效率与识别准确率,而大量有效的数据则是先进算法应用的基础。2012年以后,正是得益于大数据技术的发展、计算能力的飞速提升和深度学习的出现,以深度学习为核心的机器学习技术在生物医药领域从科研到应用都取得了巨大的进展。特别是以卷积神经网络和循环神经网络为核心算法的深度学习技术,更深刻影响了生物医药领域的现状,并将重塑其未来。
近年来,围绕大规模异构超级计算机在生命科学与医药领域的推广应用,彭绍亮教授团队与中国科学院上海药物研究所、军事医学科学院、深圳华大基因股份有限公司、电子科技大学、人和未来生物科技(长沙)有限公司、湖南智超医疗科技有限公司等单位密切合作,在生物医药大数据领域做出了高质量的研究和开发工作。这些工作大多面向大规模异构超级计算机,解决海量数据分析的时效性和准确性问题,在这个交叉科学领域取得了不菲的成果。
彭绍亮 教授
本书致力于阐述生物医药大数据的高效处理和智能分析两方面的问题。其中高效处理主要涉及生物医药大数据算法的大规模并行优化;智能分析主要涉及基于机器学习(特别是深度学习)对生物医药大数据进行分析。
首先介绍了并行计算的基础知识,然后分别介绍作者团队在海量基因表达谱分析、功能性前噬菌体预测、高通量药物虚拟筛选3个方面的工作。这些工作涉及人类基因组、微生物基因组和药物筛选领域,对一些重要算法进行了大规模并行优化。
生物医药大数据的高效处理受益于大规模并行计算技术的进步,如今,超级计算机及成本相对低廉的服务器集群都在支撑着生物医药软件的运行。大规模并行计算机体系结构的不断进步必将带来新的并行计算模式和框架,也会为相关软件的并行优化带来新的挑战和机遇。通过这一部分内容的学习,读者可以及时跟进面向生物医药大数据的并行处理前沿技术与优化手段。
生物医药大数据的智能分析
首先介绍机器学习(特别是深度学习)的基础知识,及其在生物医药方面的应用,然后分别介绍作者团队在肿瘤基因表达谱分类、RNA编辑位点识别、增强子识别3个方面的研究。
虽然以深度学习为核心的人工智能技术已经在基因分析、辅助诊疗、医学图像分析、医药研发等领域取得了很大进展,但人工智能与生物医药大数据的真正融合还有很长的路要走,这不仅需要人工智能技术发展出更为智能和实用的算法,还需要高性能计算技术的不断进步,提供不断提升的计算能力作为人工智能的引擎,更需要大数据技术的持续发展,提供大规模的高质量数据作为人工智能引擎的“燃料”。
“2020年新冠肺炎疫情的突然来袭,让全世界认识到了生命科学研究的重要性。而生物医药技术与大数据、人工智能、高性能计算等技术的交叉融合,将在提高人类的医疗和健康水平方面发挥越来越重要的作用。
本书是彭绍亮教授团队在该交叉领域十余年科研工作的结晶,其出版必将对进一步推动我国高性能计算和生物医药大数据与智能分析的交叉融合发展产生积极的影响。”
“本书系统总结了近几年国内外生物医药与并行计算、数据挖掘、机器学习等领域交叉的最新研究成果,建立了生物医药大数据与人工智能技术架构之间的映射关系,对与生物医药大数据有关的医疗从业人员和生物医药大数据领域的科研人员都有帮助,可以是他们全面、深刻地理解和把握复杂的生物医药大数据和智能分析问题。”
本文由 SEQ.CN 作者:白云 发表,转载请注明来源!