HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA Blackwell Ultra 重磅亮相:代理型AI性能飙升50倍,成本直降35倍

NVIDIA最新数据显示,其Blackwell Ultra平台在智能体(Agentic AI)应用中实现突破性性能提升,相较上一代Hopper平台,性能最高提升50倍,单位成本降低35倍。这一进展尤其适用于编程类AI助手等需要低延迟和长上下文处理的场景。 据OpenRouter《推理状态报告》显示,去年与软件编程相关的AI查询量从11%飙升至约50%,推动对高效推理基础设施的需求激增。这类应用要求在多步骤工作流中保持实时响应,并能处理整个代码库的长上下文推理。NVIDIA通过芯片、系统架构与软件的深度协同设计,显著优化了性能与成本。 搭载Blackwell Ultra GPU的NVIDIA GB300 NVL72系统,实现每瓦特处理能力提升50倍,单位token成本较Hopper平台降低35倍,尤其在低延迟场景下优势显著。结合TensorRT-LLM、Dynamo、Mooncake和SGLang等软件优化,GB300在混合专家模型(MoE)推理中实现持续性能跃升。例如,TensorRT-LLM的最新升级使GB200在低延迟任务上的性能相比四个月前提升5倍。 在长上下文任务中,GB300 NVL72同样表现突出。针对12.8万token输入与8千token输出的复杂场景(如代码库全局推理),其单位token成本比GB200 NVL72降低1.5倍。Blackwell Ultra具备1.5倍更高的NVFP4算力和2倍更快的注意力处理速度,有效支持AI智能体对大规模代码的高效理解。 目前,微软、CoreWeave和OCI等云服务商已大规模部署GB200 NVL72,并开始在生产环境中使用GB300 NVL72,用于构建实时、高响应的智能编程助手。CoreWeave工程高级副总裁Chen Goldberg表示,GB300系统通过CKS和SUNK等技术,将硬件优势转化为可预测的性能与成本效率,为大规模AI推理提供新可能。 展望未来,NVIDIA即将推出的Vera Rubin平台(集成六颗新芯片的AI超级计算机)将进一步突破性能极限。其MoE推理效率较Blackwell平台提升10倍,单位token成本降至十分之一;同时,训练大型MoE模型仅需Blackwell平台四分之一的GPU数量,为下一代前沿AI模型提供强大支撑。

相关链接