HyperAI

5ヶ月前

大規模言語モデル（LLM）の文脈長が急拡大する中、Attention機構の性能は「ソフトマックス」関数の計算速度に大きく左右されるようになっている。特に、マルチヘッド潜在Attention（MLA）やグループクエリAttention（GQA）といった複雑なアーキテクチャが普及する一方で、ソフトマックスは多項式で表現できない「超越関数」であり、Tensor Coreが得意とする加算や乗算とは異なり、特殊関数ユニット（SFU）で処理される。このため、ソフトマックスの計算が遅延し、Tensor Coreが待機する「パイプラインスタール」が発生するというボトルネックが生じていた。 NVIDIAのBlackwell Ultraアーキテクチャは、この問題を解決するため、SFUの指数関数計算（MUFU.EX2命令）のスループットを従来のBlackwellと比べて2倍に向上させた。これにより、Attentionブロック内のソフトマックス処理時間が約50％短縮され、Tensor Coreの待機時間が大幅に削減された。結果として、行列乗算のパイプラインがよりスムーズに稼働し、推論全体のスループットが向上する。実測ベンチマークでは、FP8精度での前向き伝播（FPROP）処理で約35％の性能向上が確認された。これは、低精度演算で行列計算が高速化されているため、ソフトマックス処理の相対的な影響が顕著になることによる。DeepSeek-V3などの最先端モデルでは、Attentionの密度が高いため、非線形演算の速度が推論全体の制限要因となっている。 Blackwell Ultraは、単にTensor Coreを強化するだけでなく、ソフトマックス処理に特化したSFUの性能を飛躍的に高めることで、AIの「思考速度」を本質的に改善している。このハードウェアとソフトウェアの共同設計により、大規模モデルの推論効率が飛躍的に向上し、今後のAI開発の基盤となる。

このニュースは、業界の最新情報を効率的に提供するため、AIによって自動的に集約されています。内容は意見や助言を構成するものではありません。

関連リンク

関連リンク

関連リンク

スタンフォード大学のAI X線科学者たちは、大規模モデル推論とMCPツールの使用に基づき、シンクロトロン放射光源において単結晶回折アライメントを自律的に完了させた。

スタンフォード大学のAI X線科学者たちは、大規模モデル推論とMCPツールの使用に基づき、シンクロトロン放射光源において単結晶回折アライメントを自律的に完了させた。

Command Palette

NVIDIA Blackwell Ultra、ソフトマックス処理を2倍高速化で長文AI推論を飛躍的に向上

関連リンク

Command Palette

NVIDIA Blackwell Ultra、ソフトマックス処理を2倍高速化で長文AI推論を飛躍的に向上

関連リンク

Command Palette

NVIDIA Blackwell Ultra、ソフトマックス処理を2倍高速化で長文AI推論を飛躍的に向上

関連リンク

スタンフォード大学のAI X線科学者たちは、大規模モデル推論とMCPツールの使用に基づき、シンクロトロン放射光源において単結晶回折アライメントを自律的に完了させた。

スタンフォード大学のAI X線科学者たちは、大規模モデル推論とMCPツールの使用に基づき、シンクロトロン放射光源において単結晶回折アライメントを自律的に完了させた。