HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA新工具简化数据中心AI推理部署

随着AI模型日益复杂,多智能体协作与长上下文推理成为主流,AI推理正从单节点部署迈向跨集群的多节点协同。为应对这一趋势,NVIDIA推出基于Kubernetes的全栈推理平台,通过NVIDIA Dynamo与Grove等技术,实现高效、可扩展的集群级推理服务。 在单GPU或单服务器上运行的模型,通常通过并行部署多个副本提升吞吐量。NVIDIA最新测试显示,使用72块Blackwell Ultra GPU,结合Dynamo平台,已实现每秒110万token的行业纪录级吞吐。然而,面对高并发、长序列任务,传统统一部署模式面临性能瓶颈。为此,NVIDIA提出“解耦推理”(disaggregated serving)方案:将输入处理(prefill)与输出生成(decode)分别部署在不同优化过的GPU上,实现任务分离与资源最优配置。该技术对DeepSeek-R1等大型推理模型尤为关键。 NVIDIA Dynamo将解耦推理能力扩展至多节点集群,实现跨GPU集群的统一管理。Baseten公司应用该技术后,长上下文代码生成推理速度提升2倍,吞吐量提高1.6倍,且无需增加硬件投入。SemiAnalysis InferenceMAX基准测试进一步证明,Dynamo在GB200 NVL72系统上对混合专家模型的单位成本表现最优。 在云平台层面,Dynamo已集成至主流云服务商的托管Kubernetes服务中,支持NVIDIA Blackwell系列系统(如GB200、GB300 NVL72),助力企业级AI应用实现高性能、高可靠部署。Nebius等新兴云厂商也正基于NVIDIA加速计算架构,构建面向大规模推理的云基础设施。 为简化复杂推理系统的编排,NVIDIA推出开源API——Grove,作为Dynamo的核心组件。Grove允许开发者以声明式方式定义整个推理系统,包括prefill、decode、路由、KV缓存等多组件协同关系。通过PodClique、ScalingGroup和PodCliqueSet三类资源,Grove实现多层次自动伸缩、拓扑感知调度、角色级启动顺序控制与系统级故障恢复。 例如,用户可声明“需3个节点用于prefill,6个节点用于decode,且同一模型副本的组件必须部署在同一NVLink域以降低延迟”。Grove自动完成组件调度、资源分配与依赖管理,避免手动编写复杂YAML或脚本。 Grove支持灵活的分层调度策略,允许prefill与decode独立扩展,同时保证最小可用组合。系统还具备故障自愈与滚动更新能力,确保整个推理服务作为整体稳定运行。 目前,Grove已完全开源,可通过GitHub获取。开发者可将其与Dynamo结合,或作为独立组件部署于Kubernetes集群,快速构建高效、可扩展的AI推理系统。NVIDIA也将在KubeCon 2025 Atlanta展会现场展示其应用成果,欢迎社区参与贡献与交流。 这一系列技术演进标志着AI推理正从“单点优化”迈向“系统级协同”,为构建大规模、低延迟、高性价比的生成式AI服务提供了坚实基础。

相关链接