突破AI存储瓶颈:如何利用RDMA加速S3兼容存储性能
在人工智能迅猛发展的背景下,AI工作负载对存储性能提出了前所未有的要求。随着企业到2028年每年预计将生成近400泽字节的数据,其中90%为非结构化数据(如音频、视频、图像、PDF等),传统存储方案已难以满足高速、高并发的数据访问需求。为应对这一挑战,基于S3兼容存储的RDMA(远程直接内存访问)技术应运而生,成为提升AI存储性能的关键突破。 RDMA通过绕过传统TCP协议的内核开销,实现GPU计算节点与对象存储之间的超低延迟、高吞吐数据传输。NVIDIA推出的RDMA for S3-compatible storage解决方案,结合其GPU与网络技术,显著提升了对象存储的效率。相比传统TCP,该方案可实现每TB存储更高的吞吐量、更高的每瓦特性能、更低的每TB成本,以及显著降低的延迟,特别适合大规模AI训练中数千个GPU并行读写数据的场景。 该技术已由NVIDIA提供客户端和服务器端库,支持在AI GPU计算节点上直接运行,使AI工作负载能以更快的速度访问对象存储数据,从而提升GPU利用率和整体训练效率。尽管当前优化主要面向NVIDIA硬件,但其架构开放,允许其他厂商和用户参与开发,适配自有软件生态。 目前,多家主流存储厂商已积极采纳该技术。Cloudian在其HyperStore产品中集成RDMA支持,Dell Technologies将RDMA融入ObjectScale,HPE则在Alletra Storage MP X10000中实现端到端RDMA加速。这些厂商均强调,RDMA不仅提升了性能与可扩展性,还通过S3 API兼容性,实现了本地与云端AI工作负载的无缝迁移与统一管理。 NVIDIA正与合作伙伴共同推动RDMA for S3兼容存储的标准化。相关库已向部分合作伙伴开放,预计将于2024年1月通过NVIDIA CUDA Toolkit全面发布。同时,NVIDIA还推出新的对象存储认证计划,作为NVIDIA认证存储体系的一部分,进一步保障系统兼容性与性能表现。这一系列进展标志着AI时代存储基础设施正迈向更高效、更智能的新阶段。
