HyperAI

在人工智能领域，软件正以前所未有的速度推动性能边界（Pareto frontier）的外移，其影响力甚至超过了硬件升级。这一趋势在NVIDIA GTC 2025大会上被清晰展现——CEO黄仁勋用Pareto曲线展示了AI推理吞吐量与响应延迟之间的权衡关系，揭示了在不同GPU配置和并行策略下，系统性能的优化空间。以Hopper H200和Blackwell B200 GPU为例，通过引入Dynamo和TensorRT等软件优化，系统在FP8精度下性能显著提升。当升级到72块B200组成的机架级系统并使用FP4精度时，吞吐量翻倍，机架级架构带来9倍性能增益。结合软件优化，Blackwell系统在关键性能点上实现约25倍的综合提升（实测接近31倍），即每瓦特生成的token数和每用户处理速度均提升5倍。更关键的是，当模型从传统的密集型“blurty”模型转向复杂的“链式思维”推理模型（如GPT-OSS、DeepSeek R1）时，虽然每瓦特吞吐量下降11倍，但用户级吞吐量保持稳定。而B200系统相比H200，性能优势达到40倍，体现软件与架构协同的强大力量。 NVIDIA在InferenceMax v1基准测试中展示了GPT-OSS、DeepSeek R1和Llama 3.3 70B等模型的性能曲线。从8月初到9月底，仅用一个半月，GPT-OSS模型的Pareto曲线整体性能几乎翻倍。10月3日，通过TensorRT优化和NVSwitch内存并行技术，系统最大吞吐量突破6万TPS/GPU，用户交互性达近500 TPS/GPU。仅一周后，加入多token预测（类似推测执行）后，峰值用户交互性达1000 TPS/用户，100 TPS用户级吞吐量也提升5倍。这表明，过去需两年完成的5倍软件性能提升，如今在数周内即可实现。NVIDIA的实践揭示：虽然20%的收入来自软件，80%的员工投入软件研发，而软件贡献了GPU系统约60%的性能增益。在生成式AI时代，持续更新的软件生态，正成为性能跃升的核心驱动力。硬件是基础，但真正决定“边界”能推多远的，是软件的快速迭代。

相关链接

相关链接

相关链接

剑桥大学等提出面向对地观测任务的像素级基础模型，在多项任务中精度达 SOTA

剑桥大学等提出面向对地观测任务的像素级基础模型，在多项任务中精度达 SOTA

Command Palette

软件突破引领人工智能性能跃升，超越硬件限制

相关链接

Command Palette

软件突破引领人工智能性能跃升，超越硬件限制

相关链接

Command Palette

软件突破引领人工智能性能跃升，超越硬件限制

相关链接

剑桥大学等提出面向对地观测任务的像素级基础模型，在多项任务中精度达 SOTA

剑桥大学等提出面向对地观测任务的像素级基础模型，在多项任务中精度达 SOTA