HyperAI超神经

NVIDIA cuBLAS 12.9: 高速化と柔軟性を強化した行列乗算 NVIDIAのCUDA-X数学ライブラリは、AI、科学計算、データ処理など、さまざまな分野の開発者が高速なアプリケーションを構築するために設計されています。最も重要な用途の1つが大規模言語モデル（LLM）のトレーニングと推論であり、これらの性能を大幅に向上させるために多様なCUDA-Xライブラリが必要不可欠です。最新版のcuBLAS 12.9では、さらに優れた最適化機能と柔軟性が追加され、特にNVIDIA HopperおよびBlackwellアーキテクチャでのパフォーマンス向上が見込めます。新たな特徴：FP8行列乗算の最適化 cuBLAS 12.9では、FP8（浮動小数点8ビット）を使った行列乗算において新たなスケーリング手法が導入されました。以前は、張量全体に单一のスケーリング係数を適用する方法が主流でしたが、今回は行または列に個別にスケーリング係数を適用する「チャンネル幅スケーリング」や、「ブロックスケーリング」が可能になりました。ブロックスケーリングは、各128要素の1次元ブロックまたは128×128の2次元ブロックにスケーリング係数を適用するものです。 1Dブロックスケーリングは精度の向上、2Dブロックスケーリングはパフォーマンスの向上に寄与します。ベンチマーク結果（図1）では、H200 GPU上での各FP8スケーリング手法がBF16（bfloat16）ベースラインに対して最大1.75倍のスピードアップを達成しています。几乎所有の場合で、少なくとも1.25倍の改善があります。 NVIDIA Blackwell Tensor Coresの新規サポート NVIDIA Blackwellテンサーコアは、細かい粒度の1DブロックスケーリングをFP4（浮動小数点4ビット）とFP8データタイプに-nativeで実現することにより、精度とスループットのバランスを提供します。これにより、各ブロック内の値をより精密に表現でき、全体的な精度が向上します。新しいデータタイプを使用して、cuBLAS 12.9はさまざまなスケーリングモードに対応しており、Dテンソルのスケーリング係数を自動計算できるようになっています。これにより、変換前のデータを再度通過させる必要がなく、効率的に行列乗算を行うことが可能となります。パフォーマンスの向上：B200とGB200 GPU 新しいデータタイプとカーネル最適化のおかげで、cuBLAS 12.9はNVIDIA Blackwell GPUでの素晴らしいパフォーマンスを利用できます。シナリオベンチマーク（図3）では、B200とGB200 GPUのパフォーマンスをH200 GPUと比較しています。大型の計算制限型行列と1,000回のランダム行列サイズの試験を行った結果、GB200のFP8ブロックスケーリングはH200のFP8ベースラインに対し4.6倍のパフォーマンスを達成し、最大6,787 TFLOPS/s（tera floating-point operations per second）の絶対性能を記録しました。実際のデータセットでも同様の性能向上が見られており、LLMトレーニングと推論の主要ワークロードに関してH200基準に対する最小1.7倍、最大2.2倍のスピードアップが達成されています。これらの結果は行列乗算とその反復回数にのみ着目したものです。全体のエンドツーエンドのスピードアップは、非行列乗算部分のパフォーマンスにも依存します。 FP32行列乗算の高速化と効率の向上 cuBLAS 12.9は、さらにFP32（32ビット浮動小数点）行列乗算のエミュレーション機能を導入しました。これにより、より高速で省電力な行列乗算を実現できます。エミュレーションはBF16テナーコアを使って行われ、ベンチマーク結果（図5）では最大ケース（M=N=K=32,768）でnative FP32より3〜4倍のTFLOPSを達成しています。天気予報アプリケーションの例（NVIDIA GTC 2025）では、このエミュレーションによって1.4倍の性能向上と1.3倍のエネルギー効率向上が確認されています。業界関係者のコメント業界の専門家は、NVIDIA cuBLAS 12.9の新機能と高性能について高く評価しています。このアップデートにより、科学技術やAI分野における様々なアプリケーションの開発が加速されると見込まれています。NVIDIAは引き続き新しい機能や最適化テクニックを開発し、高性能なライブラリの提供を続けています。 NVIDIAは、高度な性能と柔軟性を持つ行列乗算ライブラリを通じて、次世代のアプリケーション開発を加速するというコミットメントを再確認しています。詳しくはcuBLASのドキュメンテーションやAPI例を参照してください。

Related Links