Back to Headlines

英伟达革新长上下文推理:解耦架构大幅提升性价比

10 天前

Nvidia正通过推出名为“Rubin CPX”的新型GPU加速器,重构AI推理架构,以应对日益增长的长上下文AI工作负载需求。随着2026至2027年AI算力投资达到高峰,HBM高带宽内存供应严重不足,而其制造难度随堆叠高度、密度和带宽提升而加剧,导致良率下降,算力成本压力剧增。为破解这一困局,Nvidia将推理流程拆解:将“上下文处理”(prefill)与“文本生成”(decode)分离,分别由不同GPU承担。 Rubin CPX专为长上下文推理优化,如代码生成、分析及视频输入输出处理,这些任务通常需要百万级token上下文窗口。传统方式在单个高带宽HBM GPU上运行,效率低下且成本高昂。而通过将Rubin CPX用于上下文处理,搭配另一枚Rubin GPU进行生成,利用KV缓存避免重复计算,Nvidia宣称可实现6倍吞吐量提升,仅需2.25倍的额外算力投入,显著提升性价比。 与以往将游戏或工作站GPU降级用于数据中心的做法不同,Rubin CPX采用更简洁的架构设计,基于未来Rubin R100/R200系列GPU路线图,但使用GDDR7显存而非昂贵的HBM。其单卡提供30 PFLOPS FP4算力,配备128GB GDDR7显存,带宽约2.1TB/s,远低于HBM4的近10TB/s,但成本大幅降低。该设计使Nvidia能以更低价格部署大规模推理节点,同时提升出货量。 更关键的是,Rubin架构强化了注意力计算加速,而注意力机制本身对内存带宽需求不高,更适合此类专用芯片。在Vera Rubin rackscale系统中,加入8个Rubin CPX节点后,整机FP4算力提升至4.4 exaflops,内存带宽增加300TB/s,额外提供25TB高速内存。Nvidia表示,每投入1亿美元,可带来50亿美元的API或应用收入,经济性极佳。 此外,系统还可实现跨节点解耦,将Rubin CPX与主计算节点独立部署,无需NVLink互联,提升灵活性。未来或可用于中小型模型推理。尽管具体定价尚未公布,但这一“解耦推理”策略,标志着Nvidia正从单纯堆算力转向更智能、更经济的算力分配模式,为AI规模化落地提供关键支撑。

Related Links