HyperAI

主体总结在红帽峰会2025上，llm-d社区的推出标志着开源生态系统中生成式AI推理创新的重大进展。该社区基于vLLM和Inference Gateway项目，通过Kubernetes原生架构来支持大规模推理部署，进一步扩展了vLLM的功能。 NVIDIA在llm-d项目中扮演了关键角色，提供了多项技术组件。首先，为了实现高效率、低延迟的分布式和分离式数据传输，llm-d利用了NVIDIA NIXL库。NIXL是Dynamo项目的一部分，提供了一种一致的数据传输API，能够在不同层级的内存和存储之间快速、异步地移动数据，特别适用于LLM推理中的键值（KV）缓存数据传输。这使得在分离开的预填充（prefill）和解码（decode）环境中，KV缓存的管理变得更加高效。其次，传统的大型语言模型（LLM）部署通常在同一GPU上同时运行计算密集的预填充阶段和内存密集的解码阶段，这种做法导致资源利用率低下。而分离开的预填充和解码服务则解决了这一问题，通过将这两个阶段分配到不同的GPU或节点上，可以实现更精细的资源管理和硬件优化。NVIDIA已经支持了vLLM项目中的预填充和解码请求调度算法设计与实现，助力open source社区采用分离开的服务模式。此外，动态GPU资源规划也是llm-d项目中的一个重要突破。传统的自动缩放方法依赖于如每秒查询数（QPS）这样的简单指标，但在现代LLM服务环境中，这些指标无法准确预测系统负载，尤其是在使用分离开的预填充和解码技术时。NVIDIA的Dynamo Planner可以智能地根据推理工作负载的需求，选择合适的GPU类型进行扩展，并支持本地实验和大规模生产部署，确保在不同环境下的最优资源利用，降低推理成本。 NVIDIA还发布了企业级产品NVIDIA NIM，这是一个集成了NVIDIA和社区领先推理技术的高性能微服务套件，支持在云、数据中心和工作站上安全、可靠地部署AI模型推理。NVIDIA和红帽的合作，特别是通过NVIDIA GPU Operator、NVIDIA Network Operator和NVIDIA NIM Operator的认证，简化了AI训练和推理工作负载的部署、管理和扩展。背景补充 NVIDIA在GTC 2025大会上宣布了Dynamo项目，旨在为大规模分布式环境中的生成式AI和推理模型提供高吞吐量、低延迟的开源推理服务框架。Dynamo v0.2版本引入了多个新功能，包括动态GPU资源规划和更广泛的NIXL支持，特别是在AWS Elastic Fabric Adapter（EFA）上的扩展。这使得在AWS云上使用NVIDIA GPU实例的AI服务提供商可以充分利用Dynamo的分布式和分离开的服务能力。 NVIDIA和红帽的合作历史悠久，致力于支持Red Hat OpenShift和Red Hat OpenShift AI在NVIDIA加速计算平台上的应用。NVIDIA的开放贡献不仅限于LLM领域，还包括容器运行时、Kubernetes操作符和监控工具等。这些合作和项目推动了开源AI技术的发展，降低了企业和开发者的进入门槛，促进了创新和社区交流。 NVIDIA鼓励AI开发者和研究人员加入llm-d和Dynamo项目，共同推进开源推理技术的进步。社区用户还可以参加即将在6月5日旧金山举行的首次面对面用户会议，深入探讨Dynamo v0.2版本的特性和未来路线图。

相关链接

相关链接

相关链接

MIT 开发 Pichia-CLM 模型学习酵母 DNA「语言」，外源蛋白产量最高可提高至 3 倍

MIT 开发 Pichia-CLM 模型学习酵母 DNA「语言」，外源蛋白产量最高可提高至 3 倍

Command Palette

NVIDIA Dynamo加速大规模分布式社区计划并优化GPU自动扩展和网络连接

相关链接

Command Palette

NVIDIA Dynamo加速大规模分布式社区计划并优化GPU自动扩展和网络连接

相关链接

Command Palette

NVIDIA Dynamo加速大规模分布式社区计划并优化GPU自动扩展和网络连接

相关链接

MIT 开发 Pichia-CLM 模型学习酵母 DNA「语言」，外源蛋白产量最高可提高至 3 倍

MIT 开发 Pichia-CLM 模型学习酵母 DNA「语言」，外源蛋白产量最高可提高至 3 倍