HyperAI超神経
Back to Headlines

NVIDIA cuBLAS 12.9、最新機能で大規模行列乗算の速度と柔軟性が向上 NVIDIA cuBLAS 12.9の新機能により、大規模行列乗算(matmul)の速度と精度が大幅に向上。特にFP8のチャネルスケーリングとブロックスケーリング、およびBlackwellアーキテクチャでのFP4とFP8の細かいブロックスケーリングが注目されています。また、FP32のエミュレーション機能も追加され、パワーエフィシェンシーの改善が期待できます。これらの新機能は、大規模言語モデル(LLM)の学習や推論など、AIや科学計算の重要なアプリケーションで活用できることが示されています。

2ヶ月前

NVIDIA cuBLAS 12.9: 高速化と柔軟性を強化した行列乗算 NVIDIAのCUDA-X数学ライブラリは、AI、科学計算、データ処理など、さまざまな分野の開発者が高速なアプリケーションを構築するために設計されています。最も重要な用途の1つが大規模言語モデル(LLM)のトレーニングと推論であり、これらの性能を大幅に向上させるために多様なCUDA-Xライブラリが必要不可欠です。最新版のcuBLAS 12.9では、さらに優れた最適化機能と柔軟性が追加され、特にNVIDIA HopperおよびBlackwellアーキテクチャでのパフォーマンス向上が見込めます。 新たな特徴:FP8行列乗算の最適化 cuBLAS 12.9では、FP8(浮動小数点8ビット)を使った行列乗算において新たなスケーリング手法が導入されました。以前は、張量全体に单一のスケーリング係数を適用する方法が主流でしたが、今回は行または列に個別にスケーリング係数を適用する「チャンネル幅スケーリング」や、「ブロックスケーリング」が可能になりました。ブロックスケーリングは、各128要素の1次元ブロックまたは128×128の2次元ブロックにスケーリング係数を適用するものです。 1Dブロックスケーリングは精度の向上、2Dブロックスケーリングはパフォーマンスの向上に寄与します。ベンチマーク結果(図1)では、H200 GPU上での各FP8スケーリング手法がBF16(bfloat16)ベースラインに対して最大1.75倍のスピードアップを達成しています。几乎所有の場合で、少なくとも1.25倍の改善があります。 NVIDIA Blackwell Tensor Coresの新規サポート NVIDIA Blackwellテンサーコアは、細かい粒度の1DブロックスケーリングをFP4(浮動小数点4ビット)とFP8データタイプに-nativeで実現することにより、精度とスループットのバランスを提供します。これにより、各ブロック内の値をより精密に表現でき、全体的な精度が向上します。 新しいデータタイプを使用して、cuBLAS 12.9はさまざまなスケーリングモードに対応しており、Dテンソルのスケーリング係数を自動計算できるようになっています。これにより、変換前のデータを再度通過させる必要がなく、効率的に行列乗算を行うことが可能となります。 パフォーマンスの向上:B200とGB200 GPU 新しいデータタイプとカーネル最適化のおかげで、cuBLAS 12.9はNVIDIA Blackwell GPUでの素晴らしいパフォーマンスを利用できます。シナリオベンチマーク(図3)では、B200とGB200 GPUのパフォーマンスをH200 GPUと比較しています。大型の計算制限型行列と1,000回のランダム行列サイズの試験を行った結果、GB200のFP8ブロックスケーリングはH200のFP8ベースラインに対し4.6倍のパフォーマンスを達成し、最大6,787 TFLOPS/s(tera floating-point operations per second)の絶対性能を記録しました。 実際のデータセットでも同様の性能向上が見られており、LLMトレーニングと推論の主要ワークロードに関してH200基準に対する最小1.7倍、最大2.2倍のスピードアップが達成されています。これらの結果は行列乗算とその反復回数にのみ着目したものです。全体のエンドツーエンドのスピードアップは、非行列乗算部分のパフォーマンスにも依存します。 FP32行列乗算の高速化と効率の向上 cuBLAS 12.9は、さらにFP32(32ビット浮動小数点)行列乗算のエミュレーション機能を導入しました。これにより、より高速で省電力な行列乗算を実現できます。エミュレーションはBF16テナーコアを使って行われ、ベンチマーク結果(図5)では最大ケース(M=N=K=32,768)でnative FP32より3〜4倍のTFLOPSを達成しています。天気予報アプリケーションの例(NVIDIA GTC 2025)では、このエミュレーションによって1.4倍の性能向上と1.3倍のエネルギー効率向上が確認されています。 業界関係者のコメント 業界の専門家は、NVIDIA cuBLAS 12.9の新機能と高性能について高く評価しています。このアップデートにより、科学技術やAI分野における様々なアプリケーションの開発が加速されると見込まれています。NVIDIAは引き続き新しい機能や最適化テクニックを開発し、高性能なライブラリの提供を続けています。 NVIDIAは、高度な性能と柔軟性を持つ行列乗算ライブラリを通じて、次世代のアプリケーション開発を加速するというコミットメントを再確認しています。詳しくはcuBLASのドキュメンテーションやAPI例を参照してください。

Related Links