NVIDIA Blackwell Ultra、ソフトマックス処理を2倍高速化で長文AI推論を飛躍的に向上
大規模言語モデル(LLM)の文脈長が急拡大する中、Attention機構の性能は「ソフトマックス」関数の計算速度に大きく左右されるようになっている。特に、マルチヘッド潜在Attention(MLA)やグループクエリAttention(GQA)といった複雑なアーキテクチャが普及する一方で、ソフトマックスは多項式で表現できない「超越関数」であり、Tensor Coreが得意とする加算や乗算とは異なり、特殊関数ユニット(SFU)で処理される。このため、ソフトマックスの計算が遅延し、Tensor Coreが待機する「パイプラインスタール」が発生するというボトルネックが生じていた。 NVIDIAのBlackwell Ultraアーキテクチャは、この問題を解決するため、SFUの指数関数計算(MUFU.EX2命令)のスループットを従来のBlackwellと比べて2倍に向上させた。これにより、Attentionブロック内のソフトマックス処理時間が約50%短縮され、Tensor Coreの待機時間が大幅に削減された。結果として、行列乗算のパイプラインがよりスムーズに稼働し、推論全体のスループットが向上する。 実測ベンチマークでは、FP8精度での前向き伝播(FPROP)処理で約35%の性能向上が確認された。これは、低精度演算で行列計算が高速化されているため、ソフトマックス処理の相対的な影響が顕著になることによる。DeepSeek-V3などの最先端モデルでは、Attentionの密度が高いため、非線形演算の速度が推論全体の制限要因となっている。 Blackwell Ultraは、単にTensor Coreを強化するだけでなく、ソフトマックス処理に特化したSFUの性能を飛躍的に高めることで、AIの「思考速度」を本質的に改善している。このハードウェアとソフトウェアの共同設計により、大規模モデルの推論効率が飛躍的に向上し、今後のAI開発の基盤となる。
