NVIDIA 推出 Vera Rubin + LPX 异构推理架构,瞄准低延迟 AI 与 Agent 时代
在今年的 NVIDIA GTC 上,NVIDIA 展示了一套面向下一代 AI 推理场景的全新架构组合:Vera Rubin NVL72 GPU 与 Groq 3 LPX 推理系统。这一组合的核心目标,是解决当前 AI 应用中日益突出的一个关键矛盾——如何在保证大规模吞吐的同时,实现低延迟、可预测的交互式体验。 LPX 是一套面向机架级部署的推理加速系统。每个机架由 32 个液冷计算托盘组成,每个托盘集成 8 个 LPU(Language Processing Unit)加速器,以及主机处理器和通信扩展模块。通过无缆设计与高带宽互联,这一系统能够在不同托盘乃至跨机架之间实现高效的数据传输,从而降低分布式推理中的通信开销和延迟抖动。 在架构层面,LPX 的核心是全新的 Groq 3 LPU 芯片。与传统 GPU 侧重峰值算力不同,LPU 更强调“确定性执行”与数据流控制:计算、内存与通信由编译器统一调度,从而避免运行时的不确定性带来的延迟波动。其片上采用大容量 SRAM 作为主要工作存储,并通过显式数据调度减少缓存未命中带来的性能损失。这种设计特别适合以解码(decode)为主的推理阶段——也是当前大模型交互体验的关键瓶颈。 随着 AI 应用从离线处理走向实时交互,推理负载正在发生结构性变化。例如,代码助手、对话机器人和多步 Agent 系统,都对“首 token 时间”和“逐 token 延迟”极为敏感。同时,更长的上下文和推理链条,也让数据传输和内存带宽成为新的限制因素。在这种背景下,单一硬件架构已难以同时兼顾吞吐与响应。 NVIDIA 给出的答案是“异构推理”。在这一模式下,Vera Rubin GPU 负责处理大规模上下文和注意力计算等高吞吐任务,而 LPX 则专注于延迟敏感的解码阶段计算,例如前馈网络(FFN)和 MoE 专家模块执行。两者通过高速互联协同工作,在保持整体吞吐能力的同时,大幅提升交互性能。 这一架构同样适用于当前兴起的 Agent 类应用。在多轮推理、工具调用与反馈循环中,延迟会在每一步累积,最终直接影响用户体验。LPX 提供的低抖动、可预测执行能力,使其成为这类场景的重要补充。 整体来看,Vera Rubin 与 LPX 的组合不仅是一项硬件升级,更代表着 AI 推理系统设计思路的转变:从单一性能指标优化,转向面向真实应用场景的多维度平衡。在 AI 从“生成内容”走向“执行任务”的过程中,这种架构或将成为下一代 AI 基础设施的关键形态。
