NVIDIA Dynamo加速大规模分布式社区计划并优化GPU自动扩展和网络连接
主体总结 在红帽峰会2025上,llm-d社区的推出标志着开源生态系统中生成式AI推理创新的重大进展。该社区基于vLLM和Inference Gateway项目,通过Kubernetes原生架构来支持大规模推理部署,进一步扩展了vLLM的功能。 NVIDIA在llm-d项目中扮演了关键角色,提供了多项技术组件。首先,为了实现高效率、低延迟的分布式和分离式数据传输,llm-d利用了NVIDIA NIXL库。NIXL是Dynamo项目的一部分,提供了一种一致的数据传输API,能够在不同层级的内存和存储之间快速、异步地移动数据,特别适用于LLM推理中的键值(KV)缓存数据传输。这使得在分离开的预填充(prefill)和解码(decode)环境中,KV缓存的管理变得更加高效。 其次,传统的大型语言模型(LLM)部署通常在同一GPU上同时运行计算密集的预填充阶段和内存密集的解码阶段,这种做法导致资源利用率低下。而分离开的预填充和解码服务则解决了这一问题,通过将这两个阶段分配到不同的GPU或节点上,可以实现更精细的资源管理和硬件优化。NVIDIA已经支持了vLLM项目中的预填充和解码请求调度算法设计与实现,助力open source社区采用分离开的服务模式。 此外,动态GPU资源规划也是llm-d项目中的一个重要突破。传统的自动缩放方法依赖于如每秒查询数(QPS)这样的简单指标,但在现代LLM服务环境中,这些指标无法准确预测系统负载,尤其是在使用分离开的预填充和解码技术时。NVIDIA的Dynamo Planner可以智能地根据推理工作负载的需求,选择合适的GPU类型进行扩展,并支持本地实验和大规模生产部署,确保在不同环境下的最优资源利用,降低推理成本。 NVIDIA还发布了企业级产品NVIDIA NIM,这是一个集成了NVIDIA和社区领先推理技术的高性能微服务套件,支持在云、数据中心和工作站上安全、可靠地部署AI模型推理。NVIDIA和红帽的合作,特别是通过NVIDIA GPU Operator、NVIDIA Network Operator和NVIDIA NIM Operator的认证,简化了AI训练和推理工作负载的部署、管理和扩展。 背景补充 NVIDIA在GTC 2025大会上宣布了Dynamo项目,旨在为大规模分布式环境中的生成式AI和推理模型提供高吞吐量、低延迟的开源推理服务框架。Dynamo v0.2版本引入了多个新功能,包括动态GPU资源规划和更广泛的NIXL支持,特别是在AWS Elastic Fabric Adapter(EFA)上的扩展。这使得在AWS云上使用NVIDIA GPU实例的AI服务提供商可以充分利用Dynamo的分布式和分离开的服务能力。 NVIDIA和红帽的合作历史悠久,致力于支持Red Hat OpenShift和Red Hat OpenShift AI在NVIDIA加速计算平台上的应用。NVIDIA的开放贡献不仅限于LLM领域,还包括容器运行时、Kubernetes操作符和监控工具等。这些合作和项目推动了开源AI技术的发展,降低了企业和开发者的进入门槛,促进了创新和社区交流。 NVIDIA鼓励AI开发者和研究人员加入llm-d和Dynamo项目,共同推进开源推理技术的进步。社区用户还可以参加即将在6月5日旧金山举行的首次面对面用户会议,深入探讨Dynamo v0.2版本的特性和未来路线图。
