多核架构下高通量测序的哈希索引内存优化研究

由于测序需求的增加和测序成本的降低,高通量测序(NGS)逐渐占据市场。NGS应用的重要前提是将测序序列比对到模板参考序列上。高通量测序技术每天以数十亿的速度产生数据的能力,以及对海量数据的处理都对现有计算机的计算能力提出了巨大挑战。中国科学院计算技术研究所孙凝晖研究员,张佩珩高工领导的研究小组采用一个基于哈希索引的算法(PerM)为例,研究了在多核架构下加速NGS测序序列比对的的优化方法。首先,研究人员提出了一个新的并行算法,通过调整使得Hash桶可以在多个线程上访问哈希索引,从而提高了数据局部共享缓存。其次,为了减少空余的Hash桶数量,研究人员提出了一种哈希索引压缩算法,这与研究人员的并行算法顺序遍历序列的性质吻合。随着哈希索引大小的减小,研究人员也有可能使用较长的哈希密钥,这样可以减轻哈希冲突并且提高查询性能。在一个拥有128GB8插槽8SMPIntel Xeon X7550)系统上的实验结果证明,新的并行算法可以使LLC的缺失率比原算法降低85%-92%,性能提高4-11倍。

参考文献:

Investigating Memory Optimization of Hash-index for Next Generation Sequencing on Multi-core Architecture.                                          Wendi Wang, et al.IEEE 26th International Parallel and Distributed Processing Symposium Workshops & PhD Forum2012 

作者简介:

孙凝晖:中国科学院计算技术研究所研究员,所长。主要从事计算机体系结构方面研究。孙凝晖研究员先后参加并领导了曙光一号并行计算机,曙光1000大规模并行机、曙光2000-I、曙光2000-II超级服务器等高性能计算机的研制。

张佩珩:中国科学院计算技术研究所正高工。清华973国家重点基础研究发展计划项目《基于新一代测序的生物信息学理论与方法》第二课题组负责人。主要从事高性能计算机硬件系统的研究,研究方向包括大规模并行计算机体系结构、可重构计算技术、硬件系统逻辑设计的应用开发等。

谭光明,中国科学院计算技术研究所副研究员。清华973国家重点基础研究发展计划项目《基于新一代测序的生物信息学理论与方法》第二课题组学术骨干。主要研究方向为并行算法、编程与体系结构,负责计算机体系结构国家重点实验室和曙光团队的并行算法小组的研究工作。