HyperAI

Nvidia最新发布的Vera Rubin平台是其迄今为止最复杂的AI与高性能计算（HPC）架构，预计2025年底正式推出。该平台采用“九芯协同”设计，整合了9种专用处理器，构建起一个高度集成的机架级算力系统，旨在重新定义AI训练与推理的性能与能效标准。硬件方面，Vera Rubin平台核心包括88核自研Vera CPU、双GPU设计的Rubin GPU（单卡288GB HBM4内存）、Rubin CPX专用推理加速器（128GB GDDR7）、NVLink 6.0高速互连芯片、BlueField-4 DPU、Spectrum-6光网络接口与Quantum-CX9 1.6Tb/s InfiniBand交换芯片。其中，NVL144机架配置144个Rubin GPU（72个封装），共20,736TB HBM4内存，可提供最高3.6 NVFP4 ExaFLOPS的推理性能和1.2 FP8 ExaFLOPS的训练性能；而采用CPX加速器的NVL144 CPX版本，推理性能可达近8 NVFP4 ExaFLOPS，实现更高算力密度。 Vera CPU基于Armv9.2架构（代号Olympus），采用88核多芯片设计，支持双线程，内存带宽达1.2TB/s，比前代Grace提升20%。其通过NVLink-C2C实现1.8TB/s的CPU-GPU互连带宽，是Grace的两倍。GPU方面，Rubin R200采用TSMC 3nm工艺，双计算晶粒+双I/O晶粒，配备288GB HBM4，带宽达13TB/s，单卡FP4性能达50 PetaFLOPS，FP8达16 PetaFLOPS，较Blackwell Ultra提升3.3倍和1.6倍。功耗约1.8kW，但性能提升远超功耗增长。2027年推出的Rubin Ultra将升级为四计算晶粒，HBM4E容量达1TB，带宽32TB/s，FP4性能突破100 PetaFLOPS，功耗达3.6kW，需全新Kyber机架与液冷系统。 Rubin CPX是专为长上下文处理设计的推理加速器，以GDDR7替代HBM4，成本更低、功耗更小，支持百万级token输入，适配多模态与复杂对话场景。BlueField-4 DPU则负责网络、存储、安全等系统级任务，集成64核Grace CPU与800Gb/s网口，大幅减轻CPU负担。在互联方面，NVLink 6.0将单链路带宽提升至3.6TB/s，NVSwitch 6.0支持全机架28.8TB/s GPU间带宽。2027年将升级至NVLink 7.0，支持144个端口，进一步扩展系统规模。Scale-out方面，Nvidia推出基于CoWoS-L封装的CPO（共封装光学）技术，Spectrum-X与Quantum-X光互连平台支持1.6Tb/s端口，通过SHARP v4协议实现网络内计算，降低通信延迟。ConnectX-9 SuperNIC作为关键接口，支持零拷贝GPU-NIC直连，实现低延迟、高吞吐的跨机架AI集群通信。软件层面，Vera Rubin平台全面优化FP4/FP6精度、百万token上下文与多模态生成任务。Dynamo推理编排器基于CUDA 13，可智能拆分任务；Smart Router与GPU Planner动态调度MoE模型的prefill与decode阶段；NIXL技术实现GPU与NIC间零拷贝数据传输；NCCL 2.24将小消息延迟降低4倍，支持万亿参数智能体模型的高效扩展。 Vera Rubin平台不仅是一次硬件升级，更是一次从芯片、系统、网络到软件的全栈重构，标志着Nvidia在AI基础设施领域的全面领先。

相关链接

相关链接

相关链接

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

Command Palette

英伟达Vera Rubin平台揭秘：史上最强AI与高性能计算融合新标杆

相关链接

Command Palette

英伟达Vera Rubin平台揭秘：史上最强AI与高性能计算融合新标杆

相关链接

Command Palette

英伟达Vera Rubin平台揭秘：史上最强AI与高性能计算融合新标杆

相关链接

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答