NVIDIA Blackwell、MLPerfトレーニング6.0で全カテゴリ制覇
NVIDIA Blackwellプラットフォームは、MLCommonsが公開した最新ベンチマーク「MLPerf Training v6.0」において全カテゴリを制覇し、最短学習時間と最高性能を記録した。今回はDeepSeek-V3 671BやGPT-OSS-20Bなど大規模MoEアーキテクチャが新たに採用され、NVIDIAは全7ベンチマークで独自に提出し優勝した。 性能の基盤はGB200およびBlackwell UltraのGB300 NVL72システムだ。第五世代NVLinkスイッチにより72基のGPUを単一リソースとして統合し、MoE特有の大量通信を高速処理。GB300はGB200比で最大1.6倍の学習速度向上を果たし、NVFP4低精度学習、拡張メモリ、高出力電力枠が寄与した。スケールアウト通信にはSpectrum-XイーサネットとQuantum InfiniBandを採用し、バースト性の高いExpert parallelismでも理論帯域幅に迫る効率を維持した。 ソフトウェア最適化も急速に進化している。CUDAグラフによる完全イテレーション実装、CuTe DSLを活用したカーネル融合、MXFP8注意機構の採用、パイプライン並列のバランシング最適化によりCPU-GPU同期オーバーヘッドを排除し、通信を実計算で完全に隠蔽。フルスタック共同設計により3ヶ月間でスループットは1.3倍に向上した。 実環境での信頼性も裏付けられている。最大8,192基のGPUを並列稼働させる大規模分散学習において、自動フェイルオーバーとNVRxによる迅速な復旧を実現。CoreWeaveやGoogle Cloudなど19社のパートナーが自社工場で活用し、学習高速化とコスト削減を検証済みだ。 本記録は次世代AIモデル開発のインフラ標準としてのBlackwellの優位性を明確に示した。ソフトウェア最適化の継続的加速とハードウェア拡張性が相まり、企業は数ヶ月要していた学習を短期間で完了させ、市場投入を劇的に加速させる基盤を確立している。
