HyperAI超神经

3 个月前

NVIDIA 推出开源库 NIXL，旨在解决分布式 AI 推理中数据移动的复杂挑战。随着多轮对话和智能体应用的发展，KV 缓存加载、专家并行等场景对存储和通信提出了极高要求。这些负载具有动态性强、需高弹性及容错能力的特点，且涉及异构硬件，传统方法难以高效管理跨 GPU、CPU 及各类存储介质的数据传输。 NIXL 通过统一且灵活的 API 抽象，实现了不同内存与存储技术间的高效数据搬运。它支持 RDMA、GPU 直接存储、NVMe 及云对象存储等多种后端，确保在 AWS、Azure 及 Google Cloud 等环境中跨平台运行。该库设计为非阻塞模式，利用零拷贝技术最小化开销，实现通信与计算的无缝重叠。其核心机制包括用于决定传输时机的“导体”进程和负责实际传输的“代理”进程，通过动态元数据交换，系统可随负载变化自动扩展或收缩节点，并在故障时保持韧性。 NIXL 已成为 NVIDIA Dynamo、TensorRT LLM、vLLM 等多个主流推理框架的关键组件。为辅助开发者，NIXL 提供 NIXLBench 和 KVBench 两种性能测试工具，前者用于通用的系统带宽与延迟评估，后者专为 LLM 推理优化，可自动计算 KV 缓存大小并生成测试指令。目前，NIXL 以 C++ 编写，支持 Linux 环境，并提供 C、Python 和 Rust 绑定。项目已开源托管于 GitHub，欢迎社区贡献，预计近期将发布 v1.0.0 正式版。通过 NIXL，开发者能够更轻松地构建高性能、高可扩展的下一代 AI 推理服务。

此资讯由 AI 智能聚合生成，旨在高效传递行业动态，不代表任何观点或建议。

相关链接

相关链接

相关链接

材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征

材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征

Command Palette

NVIDIA 发布推理传输库，提升分布式推理性能

相关链接

Command Palette

NVIDIA 发布推理传输库，提升分布式推理性能

相关链接

Command Palette

NVIDIA 发布推理传输库，提升分布式推理性能

相关链接

材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征

材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征