HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA Blackwellで実現するMixture of Experts推論の劇的性能向上

NVIDIAは、Blackwellアーキテクチャを搭載したGB200 NVL72とHGX B200プラットフォーム上で、大規模な混合専門家モデル(MoE)であるDeepSeek-R1の推論性能を大幅に向上させた。この成果は、ハードウェアとソフトウェアの高度な共同設計によるもので、特にトークン生成の効率とエネルギー効率の改善が目立つ。Blackwell GPUは、第5世代NVLink接続とNVLinkスイッチを活用し、72個のGPUを1ラックに統合し、全チップ間で最大1,800GB/sの双方向帯域幅を実現。これにより、MoEモデル特有の専門家間のデータ交換を高速化し、スケーラビリティを大幅に高めた。 また、NVIDIAが独自に開発した4ビット浮動小数点形式「NVFP4」をハードウェアレベルで加速することで、従来のFP4形式よりも精度を維持しつつ、推論性能を向上。さらに、TensorRT-LLMソフトウェアの最新アップデートにより、Blackwell GPU1個あたりのトークンスループットが最大2.8倍に増加。特に、1K/1Kや8K/1Kのシーケンス長での推論性能が顕著に改善され、複数のパフォーマンス曲線で業界最高水準を記録した。 HGX B200では、マルチトークン予測(MTP)とNVFP4の併用により、空冷環境下でも高いスループットを実現。MTPは入力と出力の処理を分離し、GPUリソースを効率的に活用。NVFP4との組み合わせで、精度を損なわず、より高いインタラクティビティを維持しながらスループットを大幅に向上。これにより、同じハードウェアでより多くのユーザーを同時に処理可能に。 NVIDIAは、ハードウェアの進化に加え、TensorRT-LLMやTensorRT Model Optimizerといったソフトウェアスタックの継続的最適化を通じて、既存のGPUインフラの価値を長期間にわたって維持。これにより、クラウドプロバイダー、企業、モデル開発者らが、AIの効率的かつ経済的な活用を可能にした。Blackwellアーキテクチャと最新ソフトウェアの統合は、AI推論のパフォーマンスとコスト効率の新たな基準を提示している。

関連リンク

NVIDIA Blackwellで実現するMixture of Experts推論の劇的性能向上 | 人気の記事 | HyperAI超神経