英伟达Blackwell Ultra重磅发布:重塑人工智能工厂时代的核心引擎
NVIDIA最新推出的Blackwell Ultra GPU是其Blackwell架构家族的巅峰之作,标志着AI计算进入“AI工厂时代”。这款芯片通过硅片级创新与系统级集成的深度融合,显著提升了训练与推理性能、可扩展性与能效,专为大规模、实时AI服务打造。 Blackwell Ultra采用双晶圆设计,通过NVIDIA自研的高带宽接口(NV-HBI)连接两个晶粒,实现10TB/s的带宽,整体拥有2080亿个晶体管,是Hopper GPU的2.6倍,但依然作为单一CUDA可编程加速器运行,保持了开发者熟悉的编程生态。 其核心为160个流式多处理器(SM),每个SM配备四组第五代Tensor Core与256KB专用张量内存(TMEM),并引入双线程块矩阵乘累加(MMA)技术,大幅降低内存冗余流量。配合第二代Transformer引擎,显著提升密集与稀疏AI负载的吞吐量和响应速度,尤其优化了大批次预训练、强化学习及高交互性推理场景。 关键突破在于全新NVFP4 4位浮点格式,结合FP8微块缩放与张量级FP32缩放,实现接近FP8精度(误差小于1%)的同时,内存占用减少约8倍(相比FP8)和3.5倍(相比FP16),极大提升推理效率。Blackwell Ultra在NVFP4下的算力达15 petaFLOPS,相比原版Blackwell提升50%,相较Hopper H100/H200提升高达7.5倍。 在注意力机制方面,Blackwell Ultra将SFU(特殊函数单元)吞吐量翻倍,关键指令性能提升2倍,显著加速长上下文推理,解决大模型“思考”过程中的性能瓶颈。 内存方面,单卡配备288GB HBM3E显存,是H100的3.6倍,支持万亿参数模型的全量驻留与超长上下文处理,无需KV缓存卸载。 互联能力上,支持第五代NVLink(1800 GB/s双向)、NVLink-C2C与PCIe Gen 6,实现GPU间、CPU-GPU间及主机连接的高效协同。 综合来看,Blackwell Ultra在能效比、吞吐量和系统规模上实现跨越式提升,推动AI工厂从概念走向现实。其与Grace CPU构成的Grace Blackwell Ultra超芯片,提供高达30 PFLOPS(密集)的算力与1TB统一内存,成为GB300 NVL72级AI系统的核心。 该芯片完全兼容CUDA生态,支持主流AI框架优化,为AI从实验走向规模化部署提供坚实硬件基础。NVIDIA表示,Blackwell Ultra不仅是一块芯片,更是构建下一代AI基础设施的基石,开启万亿级token时代的新篇章。