NVIDIA Blackwell平台赋能专家混合模型推理,性能实现飞跃式提升
NVIDIA最新发布的技术成果显示,其基于Blackwell架构的GPU平台在稀疏专家混合模型(MoE)推理性能上实现显著跃升,尤其在DeepSeek-R1这一前沿大模型上表现突出。通过软硬件深度协同优化,NVIDIA成功提升了每瓦特能耗下的token生成吞吐量,大幅降低AI服务成本。 NVIDIA GB200 NVL72机架级平台采用72块Blackwell GPU,通过第五代NVLink互连与NVLink Switch芯片,实现全平台1800 GB/s的双向带宽,专为MoE类模型设计,可高效处理专家间频繁的数据交换。Blackwell架构还引入了专为AI优化的NVFP4四比特浮点格式,相比其他FP4方案在保持精度方面更具优势。结合去中心化推理(disaggregated serving)等技术,系统可将预填充(prefill)与解码(decode)任务分配至不同GPU组,进一步释放性能潜力。 在最新版TensorRT-LLM软件支持下,GB200 NVL72平台对DeepSeek-R1(6710亿参数,每token激活370亿参数)的推理性能实现显著提升。测试显示,单GPU吞吐量较三个月前最高提升达2.8倍,尤其在8K/1K和1K/1K序列长度下表现优异。 在空气冷却部署场景中,NVIDIA HGX B200平台(8块Blackwell GPU)也取得突破。通过引入多token预测(MTP)技术,系统在不同交互水平下均实现吞吐量大幅提升。同时,NVFP4格式的全面启用,使系统在不牺牲准确性的前提下,进一步提升计算效率。在1K/1K、8K/1K、1K/8K等多组序列长度测试中,NVFP4+MTP组合均实现显著性能跃升。 这些成果得益于NVIDIA全栈软件优化,包括TensorRT-LLM和TensorRT模型优化器,确保高性能与高精度并存。通过持续的软硬件协同创新,NVIDIA不仅推动了Blackwell平台的性能边界,更显著提升了现有GPU基础设施的使用价值,使云服务商、模型开发者和企业用户能以更低成本、更高效率服务更多AI用户。 NVIDIA持续通过产品迭代与工作负载优化,为AI生态提供持续的性能增长,进一步巩固其在AI推理领域的领先地位。