HyperAI超神经

NVIDIA最新发布的技术成果显示，其基于Blackwell架构的GPU平台在稀疏专家混合模型（MoE）推理性能上实现显著跃升，尤其在DeepSeek-R1这一前沿大模型上表现突出。通过软硬件深度协同优化，NVIDIA成功提升了每瓦特能耗下的token生成吞吐量，大幅降低AI服务成本。 NVIDIA GB200 NVL72机架级平台采用72块Blackwell GPU，通过第五代NVLink互连与NVLink Switch芯片，实现全平台1800 GB/s的双向带宽，专为MoE类模型设计，可高效处理专家间频繁的数据交换。Blackwell架构还引入了专为AI优化的NVFP4四比特浮点格式，相比其他FP4方案在保持精度方面更具优势。结合去中心化推理（disaggregated serving）等技术，系统可将预填充（prefill）与解码（decode）任务分配至不同GPU组，进一步释放性能潜力。在最新版TensorRT-LLM软件支持下，GB200 NVL72平台对DeepSeek-R1（6710亿参数，每token激活370亿参数）的推理性能实现显著提升。测试显示，单GPU吞吐量较三个月前最高提升达2.8倍，尤其在8K/1K和1K/1K序列长度下表现优异。在空气冷却部署场景中，NVIDIA HGX B200平台（8块Blackwell GPU）也取得突破。通过引入多token预测（MTP）技术，系统在不同交互水平下均实现吞吐量大幅提升。同时，NVFP4格式的全面启用，使系统在不牺牲准确性的前提下，进一步提升计算效率。在1K/1K、8K/1K、1K/8K等多组序列长度测试中，NVFP4+MTP组合均实现显著性能跃升。这些成果得益于NVIDIA全栈软件优化，包括TensorRT-LLM和TensorRT模型优化器，确保高性能与高精度并存。通过持续的软硬件协同创新，NVIDIA不仅推动了Blackwell平台的性能边界，更显著提升了现有GPU基础设施的使用价值，使云服务商、模型开发者和企业用户能以更低成本、更高效率服务更多AI用户。 NVIDIA持续通过产品迭代与工作负载优化，为AI生态提供持续的性能增长，进一步巩固其在AI推理领域的领先地位。

相关链接

相关链接

相关链接

Command Palette

NVIDIA Blackwell平台赋能专家混合模型推理，性能实现飞跃式提升

相关链接

Command Palette

NVIDIA Blackwell平台赋能专家混合模型推理，性能实现飞跃式提升

相关链接

Command Palette

NVIDIA Blackwell平台赋能专家混合模型推理，性能实现飞跃式提升

相关链接