HyperAIHyperAI

Command Palette

Search for a command to run...

3 个月前
NVIDIA
LLM
vLLM

NVIDIA 发布推理传输库,提升分布式推理性能

NVIDIA 推出开源库 NIXL,旨在解决分布式 AI 推理中数据移动的复杂挑战。随着多轮对话和智能体应用的发展,KV 缓存加载、专家并行等场景对存储和通信提出了极高要求。这些负载具有动态性强、需高弹性及容错能力的特点,且涉及异构硬件,传统方法难以高效管理跨 GPU、CPU 及各类存储介质的数据传输。 NIXL 通过统一且灵活的 API 抽象,实现了不同内存与存储技术间的高效数据搬运。它支持 RDMA、GPU 直接存储、NVMe 及云对象存储等多种后端,确保在 AWS、Azure 及 Google Cloud 等环境中跨平台运行。该库设计为非阻塞模式,利用零拷贝技术最小化开销,实现通信与计算的无缝重叠。其核心机制包括用于决定传输时机的“导体”进程和负责实际传输的“代理”进程,通过动态元数据交换,系统可随负载变化自动扩展或收缩节点,并在故障时保持韧性。 NIXL 已成为 NVIDIA Dynamo、TensorRT LLM、vLLM 等多个主流推理框架的关键组件。为辅助开发者,NIXL 提供 NIXLBench 和 KVBench 两种性能测试工具,前者用于通用的系统带宽与延迟评估,后者专为 LLM 推理优化,可自动计算 KV 缓存大小并生成测试指令。目前,NIXL 以 C++ 编写,支持 Linux 环境,并提供 C、Python 和 Rust 绑定。项目已开源托管于 GitHub,欢迎社区贡献,预计近期将发布 v1.0.0 正式版。通过 NIXL,开发者能够更轻松地构建高性能、高可扩展的下一代 AI 推理服务。

相关链接