HyperAI超神经

NVIDIA最新推出的Blackwell Ultra GPU是其Blackwell架构家族的巅峰之作，标志着AI计算进入“AI工厂时代”。这款芯片通过硅片级创新与系统级集成的深度融合，显著提升了训练与推理性能、可扩展性与能效，专为大规模、实时AI服务打造。 Blackwell Ultra采用双晶圆设计，通过NVIDIA自研的高带宽接口（NV-HBI）连接两个晶粒，实现10TB/s的带宽，整体拥有2080亿个晶体管，是Hopper GPU的2.6倍，但依然作为单一CUDA可编程加速器运行，保持了开发者熟悉的编程生态。其核心为160个流式多处理器（SM），每个SM配备四组第五代Tensor Core与256KB专用张量内存（TMEM），并引入双线程块矩阵乘累加（MMA）技术，大幅降低内存冗余流量。配合第二代Transformer引擎，显著提升密集与稀疏AI负载的吞吐量和响应速度，尤其优化了大批次预训练、强化学习及高交互性推理场景。关键突破在于全新NVFP4 4位浮点格式，结合FP8微块缩放与张量级FP32缩放，实现接近FP8精度（误差小于1%）的同时，内存占用减少约8倍（相比FP8）和3.5倍（相比FP16），极大提升推理效率。Blackwell Ultra在NVFP4下的算力达15 petaFLOPS，相比原版Blackwell提升50%，相较Hopper H100/H200提升高达7.5倍。在注意力机制方面，Blackwell Ultra将SFU（特殊函数单元）吞吐量翻倍，关键指令性能提升2倍，显著加速长上下文推理，解决大模型“思考”过程中的性能瓶颈。内存方面，单卡配备288GB HBM3E显存，是H100的3.6倍，支持万亿参数模型的全量驻留与超长上下文处理，无需KV缓存卸载。互联能力上，支持第五代NVLink（1800 GB/s双向）、NVLink-C2C与PCIe Gen 6，实现GPU间、CPU-GPU间及主机连接的高效协同。综合来看，Blackwell Ultra在能效比、吞吐量和系统规模上实现跨越式提升，推动AI工厂从概念走向现实。其与Grace CPU构成的Grace Blackwell Ultra超芯片，提供高达30 PFLOPS（密集）的算力与1TB统一内存，成为GB300 NVL72级AI系统的核心。该芯片完全兼容CUDA生态，支持主流AI框架优化，为AI从实验走向规模化部署提供坚实硬件基础。NVIDIA表示，Blackwell Ultra不仅是一块芯片，更是构建下一代AI基础设施的基石，开启万亿级token时代的新篇章。

相关链接

相关链接

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

Command Palette

英伟达Blackwell Ultra重磅发布：重塑人工智能工厂时代的核心引擎

相关链接

Command Palette

英伟达Blackwell Ultra重磅发布：重塑人工智能工厂时代的核心引擎

相关链接

Command Palette

英伟达Blackwell Ultra重磅发布：重塑人工智能工厂时代的核心引擎

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟