基于在线Erasure Code算法的集群文件系统写入宽带优化研究

随着很多科学实验室和数据中心的数据量不断大量增长,越来越多人的选择使用基于Erasure Code的存储系统来降低存储成本。然而,由于数据编码和数据布局的瓶颈,使得基于在线Erasure Code算法的集群文件系统还没有被广泛应用。中国科学院计算技术研究所张佩珩研究员领导的研究小组提出了两个优化方案来解决它们。研究人员提出了一个分区编码策略,通过SIMD扩展来加速编码算法以及将提交的数据覆盖编码的数据。研究人员设计适合的布局策略来提供增量扩展、高度可用能力以及良好的可测能力。原型系统ECFS的实验结果显示,总的写入宽带的能力提高了42%,同时还能保持存储在一个更加平衡的状态。

参考文献:

 Write Bandwidth Optimization of Online Erasure Code Based Cluster File System. Lin Yan, et al.IEEE International Conference on Cluster Computing 2013 (Cluster 2013), Indianapolis, US, 2013 Sep

作者简介:

张佩珩:中国科学院计算技术研究所正高工。清华973国家重点基础研究发展计划项目《基于新一代测序的生物信息学理论与方法》第二课题组负责人。主要从事高性能计算机硬件系统的研究,研究方向包括大规模并行计算机体系结构、可重构计算技术、硬件系统逻辑设计的应用开发等。