英伟达Vera Rubin平台揭秘:史上最强AI与高性能计算融合新标杆
Nvidia最新发布的Vera Rubin平台是其迄今为止最复杂的AI与高性能计算(HPC)架构,预计2025年底正式推出。该平台采用“九芯协同”设计,整合了9种专用处理器,构建起一个高度集成的机架级算力系统,旨在重新定义AI训练与推理的性能与能效标准。 硬件方面,Vera Rubin平台核心包括88核自研Vera CPU、双GPU设计的Rubin GPU(单卡288GB HBM4内存)、Rubin CPX专用推理加速器(128GB GDDR7)、NVLink 6.0高速互连芯片、BlueField-4 DPU、Spectrum-6光网络接口与Quantum-CX9 1.6Tb/s InfiniBand交换芯片。其中,NVL144机架配置144个Rubin GPU(72个封装),共20,736TB HBM4内存,可提供最高3.6 NVFP4 ExaFLOPS的推理性能和1.2 FP8 ExaFLOPS的训练性能;而采用CPX加速器的NVL144 CPX版本,推理性能可达近8 NVFP4 ExaFLOPS,实现更高算力密度。 Vera CPU基于Armv9.2架构(代号Olympus),采用88核多芯片设计,支持双线程,内存带宽达1.2TB/s,比前代Grace提升20%。其通过NVLink-C2C实现1.8TB/s的CPU-GPU互连带宽,是Grace的两倍。GPU方面,Rubin R200采用TSMC 3nm工艺,双计算晶粒+双I/O晶粒,配备288GB HBM4,带宽达13TB/s,单卡FP4性能达50 PetaFLOPS,FP8达16 PetaFLOPS,较Blackwell Ultra提升3.3倍和1.6倍。功耗约1.8kW,但性能提升远超功耗增长。2027年推出的Rubin Ultra将升级为四计算晶粒,HBM4E容量达1TB,带宽32TB/s,FP4性能突破100 PetaFLOPS,功耗达3.6kW,需全新Kyber机架与液冷系统。 Rubin CPX是专为长上下文处理设计的推理加速器,以GDDR7替代HBM4,成本更低、功耗更小,支持百万级token输入,适配多模态与复杂对话场景。BlueField-4 DPU则负责网络、存储、安全等系统级任务,集成64核Grace CPU与800Gb/s网口,大幅减轻CPU负担。 在互联方面,NVLink 6.0将单链路带宽提升至3.6TB/s,NVSwitch 6.0支持全机架28.8TB/s GPU间带宽。2027年将升级至NVLink 7.0,支持144个端口,进一步扩展系统规模。Scale-out方面,Nvidia推出基于CoWoS-L封装的CPO(共封装光学)技术,Spectrum-X与Quantum-X光互连平台支持1.6Tb/s端口,通过SHARP v4协议实现网络内计算,降低通信延迟。ConnectX-9 SuperNIC作为关键接口,支持零拷贝GPU-NIC直连,实现低延迟、高吞吐的跨机架AI集群通信。 软件层面,Vera Rubin平台全面优化FP4/FP6精度、百万token上下文与多模态生成任务。Dynamo推理编排器基于CUDA 13,可智能拆分任务;Smart Router与GPU Planner动态调度MoE模型的prefill与decode阶段;NIXL技术实现GPU与NIC间零拷贝数据传输;NCCL 2.24将小消息延迟降低4倍,支持万亿参数智能体模型的高效扩展。 Vera Rubin平台不仅是一次硬件升级,更是一次从芯片、系统、网络到软件的全栈重构,标志着Nvidia在AI基础设施领域的全面领先。
