HyperAIHyperAI

Command Palette

Search for a command to run...

NVFP4でBlackwell学習を高速化

NVIDIAはJAXおよびMaxTextフレームワークと連携し、Blackwellアーキテクチャ対応のNVFP4 4ビット混合精度学習レシピを公開した。本技術はTransformerEngineを通じて実装され、GB200およびGB300 Grace Blackwellスーパーチップ上で動作する。 NVFP4は、従来のマイクロスケーリング方式よりも誤差が小さい二段階量子化構造を採用している。学習の精度を維持しながら高速化を実現するため、設計上、アテンション層のGEMM演算は高精度を維持し、計算負荷の大部分を占めるMLP層のみをNVFP4に量子化する。この選択により、softmax関数が量子化ノイズを増幅するリスクを回避しつつ、全体の演算効率を最大化する。具体的な精度保証技術として、ウェイトに対する2Dブロック量子化、勾配演算向けのランダムハダマール変換、そして確率的丸め手法を組み合わせ、収束特性をFP8ベースラインと同等に保つ。 MaxTextリポジトリにて公開されているレシピを用いると、JAX環境で簡単にNVFP4学習パスを有効化できる。フラグ変更だけで学習を開始可能であり、Nsight Systemsを用いたプロファイリングも標準サポートされている。 ベンチマーク結果では、Llama 3 8Bおよび405BモデルをGB200およびGB300環境で並列学習させた場合、FP8比で1.31倍から1.73倍の処理速度向上を確認した。GPU単体あたりの継続演算処理量は500から700 TFLOP/sの大幅増加を示した。405B級の超大型モデルでは並列化オーバーヘッドに対するGEMM処理の比重が高いため、精度レベルの向上が直接的な学習時間の短縮に繋がり、最大の加速率を記録した。学習損失曲線の比較でも、NVFP4とFP8は同一の収束経路を辿り、統計誤差範囲に収まり、実用上の精度劣化は確認されていない。 本技術は、AIインフラにおける大規模言語モデルの学習期間削減と計算コスト最適化に直結する。関連するセットアップ手順および詳細なメソドロジーは公開済みであり、開発者はBlackwell環境での高速学習環境を即座に構築できる。

関連リンク

NVFP4でBlackwell学習を高速化 | 人気の記事 | HyperAI超神経