NVIDIA BlackwellがInferenceMAXベンチマークで優位を確保、性能と効率の新基準を確立
AIの推論(inference)が一発回答から複雑な推論・ツール活用へと進化する中、推論の性能と経済性がAIインフラの核心課題となっている。2024年8月にSemiAnalysisが公開したオープンソースのベンチマーク「InferenceMAX v1」は、実世界のワークロードを想定した総合的な推論性能評価を初めて実施。その結果、NVIDIAのBlackwellプラットフォームが全分野で圧倒的な性能と効率を示し、AI工場(AI factories)における新たな経済モデルを提示した。 BlackwellのDGX B200およびGB200 NVL72システムは、Hopper世代と比較して最大15倍の性能向上を達成。特にGB200 NVL72では、DeepSeek-R1(MoEモデル)の推論において、100トークン/秒/ユーザーのインタラクティビティでもコスト/100万トークンが15倍改善($1.56 → $0.10)。これは、500万ドルの投資が7500万ドルのトークン収益を生む15倍のROIを実現可能にし、AIの商業化における経済的持続可能性を裏付けた。 この成果は、ハードウェアとソフトウェアの極限的な共同設計に根ざしている。Blackwellは第5世代Tensorコア、NVFP4低精度計算、1,800GB/sのNVLink 5帯域幅、HBM3eメモリを搭載。これにより、gpt-oss-120bやLlama 3.3 70Bといった大規模モデルでも、1GPUあたり1万トークン/秒を超える透過性を実現。特に、スペキュレーティブデコード(EAGLE3-v2)やデータ・エキスパート並列(DEP)技術の導入で、100トークン/秒/ユーザーで1GPUあたり3万トークン/秒の透過性を達成。ソフトウェア面では、TensorRT-LLMやDynamo、SGLang、vLLMとの連携により、GPUの効率的利用と低遅延処理が実現。特に、TensorRT-LLMのワイドEP実装は、使用頻度の高いエキスパートを分散・複製することでGPUの無駄を解消。 InferenceMAX v1は、継続的インテグレーション(CI)で毎日更新され、単一ノードからマルチノードのExpert Parallelismまで、リアルなAIインフラ環境を反映。パレートフロンティアを用いて、コスト、エネルギー効率、透過性、応答性の最適バランスを可視化。Blackwellは単一の最適点ではなく、あらゆる運用条件で優位性を維持。 NVIDIAはOpenAI、Meta、DeepSeek AIとの協業を通じて、gpt-oss-120bやLlama 3.3 70BをBlackwell向けに最適化。FlashInfer、SGLang、vLLMコミュニティとの共同開発により、Attention、GEMM、MoE処理のカーネル最適化を実現。こうしたオープンエコシステムの強化が、AI推論の進化を加速。 結論として、Blackwellは単なる性能の向上ではなく、AI工場の「コスト・トータル」を根本から変えるインフラとしての地位を確立。NVIDIAのThink SMARTフレームワークにより、企業は性能を実際の収益に変換できる新たな時代が始まっている。
