HyperAIHyperAI

Command Palette

Search for a command to run...

软件突破引领人工智能性能跃升,超越硬件限制

在人工智能领域,软件正以前所未有的速度推动性能边界(Pareto frontier)的外移,其影响力甚至超过了硬件升级。这一趋势在NVIDIA GTC 2025大会上被清晰展现——CEO黄仁勋用Pareto曲线展示了AI推理吞吐量与响应延迟之间的权衡关系,揭示了在不同GPU配置和并行策略下,系统性能的优化空间。 以Hopper H200和Blackwell B200 GPU为例,通过引入Dynamo和TensorRT等软件优化,系统在FP8精度下性能显著提升。当升级到72块B200组成的机架级系统并使用FP4精度时,吞吐量翻倍,机架级架构带来9倍性能增益。结合软件优化,Blackwell系统在关键性能点上实现约25倍的综合提升(实测接近31倍),即每瓦特生成的token数和每用户处理速度均提升5倍。 更关键的是,当模型从传统的密集型“blurty”模型转向复杂的“链式思维”推理模型(如GPT-OSS、DeepSeek R1)时,虽然每瓦特吞吐量下降11倍,但用户级吞吐量保持稳定。而B200系统相比H200,性能优势达到40倍,体现软件与架构协同的强大力量。 NVIDIA在InferenceMax v1基准测试中展示了GPT-OSS、DeepSeek R1和Llama 3.3 70B等模型的性能曲线。从8月初到9月底,仅用一个半月,GPT-OSS模型的Pareto曲线整体性能几乎翻倍。10月3日,通过TensorRT优化和NVSwitch内存并行技术,系统最大吞吐量突破6万TPS/GPU,用户交互性达近500 TPS/GPU。仅一周后,加入多token预测(类似推测执行)后,峰值用户交互性达1000 TPS/用户,100 TPS用户级吞吐量也提升5倍。 这表明,过去需两年完成的5倍软件性能提升,如今在数周内即可实现。NVIDIA的实践揭示:虽然20%的收入来自软件,80%的员工投入软件研发,而软件贡献了GPU系统约60%的性能增益。在生成式AI时代,持续更新的软件生态,正成为性能跃升的核心驱动力。硬件是基础,但真正决定“边界”能推多远的,是软件的快速迭代。

相关链接