HyperAI超神经

随着AI模型日益复杂，多智能体协作与长上下文推理成为主流，AI推理正从单节点部署迈向跨集群的多节点协同。为应对这一趋势，NVIDIA推出基于Kubernetes的全栈推理平台，通过NVIDIA Dynamo与Grove等技术，实现高效、可扩展的集群级推理服务。在单GPU或单服务器上运行的模型，通常通过并行部署多个副本提升吞吐量。NVIDIA最新测试显示，使用72块Blackwell Ultra GPU，结合Dynamo平台，已实现每秒110万token的行业纪录级吞吐。然而，面对高并发、长序列任务，传统统一部署模式面临性能瓶颈。为此，NVIDIA提出“解耦推理”（disaggregated serving）方案：将输入处理（prefill）与输出生成（decode）分别部署在不同优化过的GPU上，实现任务分离与资源最优配置。该技术对DeepSeek-R1等大型推理模型尤为关键。 NVIDIA Dynamo将解耦推理能力扩展至多节点集群，实现跨GPU集群的统一管理。Baseten公司应用该技术后，长上下文代码生成推理速度提升2倍，吞吐量提高1.6倍，且无需增加硬件投入。SemiAnalysis InferenceMAX基准测试进一步证明，Dynamo在GB200 NVL72系统上对混合专家模型的单位成本表现最优。在云平台层面，Dynamo已集成至主流云服务商的托管Kubernetes服务中，支持NVIDIA Blackwell系列系统（如GB200、GB300 NVL72），助力企业级AI应用实现高性能、高可靠部署。Nebius等新兴云厂商也正基于NVIDIA加速计算架构，构建面向大规模推理的云基础设施。为简化复杂推理系统的编排，NVIDIA推出开源API——Grove，作为Dynamo的核心组件。Grove允许开发者以声明式方式定义整个推理系统，包括prefill、decode、路由、KV缓存等多组件协同关系。通过PodClique、ScalingGroup和PodCliqueSet三类资源，Grove实现多层次自动伸缩、拓扑感知调度、角色级启动顺序控制与系统级故障恢复。例如，用户可声明“需3个节点用于prefill，6个节点用于decode，且同一模型副本的组件必须部署在同一NVLink域以降低延迟”。Grove自动完成组件调度、资源分配与依赖管理，避免手动编写复杂YAML或脚本。 Grove支持灵活的分层调度策略，允许prefill与decode独立扩展，同时保证最小可用组合。系统还具备故障自愈与滚动更新能力，确保整个推理服务作为整体稳定运行。目前，Grove已完全开源，可通过GitHub获取。开发者可将其与Dynamo结合，或作为独立组件部署于Kubernetes集群，快速构建高效、可扩展的AI推理系统。NVIDIA也将在KubeCon 2025 Atlanta展会现场展示其应用成果，欢迎社区参与贡献与交流。这一系列技术演进标志着AI推理正从“单点优化”迈向“系统级协同”，为构建大规模、低延迟、高性价比的生成式AI服务提供了坚实基础。

相关链接

相关链接

相关链接

论文汇总丨超 100 篇 AI for Science 重要成果，一文速览 2025 年技术创新

论文汇总丨超 100 篇 AI for Science 重要成果，一文速览 2025 年技术创新

Command Palette

NVIDIA新工具简化数据中心AI推理部署

相关链接

Command Palette

NVIDIA新工具简化数据中心AI推理部署

相关链接

Command Palette

NVIDIA新工具简化数据中心AI推理部署

相关链接

论文汇总丨超 100 篇 AI for Science 重要成果，一文速览 2025 年技术创新

论文汇总丨超 100 篇 AI for Science 重要成果，一文速览 2025 年技术创新