Back to Headlines

NVIDIA、4ビット精度で大規模言語モデルの事前学習を実現——NVFP4が効率と精度の新基準を設定

1日前

NVIDIAが開発したNVFP4技術が、大規模言語モデル(LLM)の学習段階で4ビット精度を活用する画期的な進展をもたらしている。従来、モデルの事前学習には16ビットや32ビットの浮動小数点形式が使われていて、計算効率と精度のバランスが課題だった。しかし、NVFP4は4ビットの精度で学習を可能にし、従来の16ビットと同等の精度を維持しながら、計算速度と効率を大幅に向上させた。この技術は、特に巨大なモデルをトレーニングする「AIファクトリー」にとって、計算リソースの最適化とスケーラビリティの向上を実現する戦略的革新である。 NVFP4は、モデルの重みや活性化値を4ビットに圧縮する「4ビット量子化」に基づく。これにより、メモリ使用量と通信量が削減され、GPUの演算効率が飛躍的に向上。NVIDIAのBlackwellアーキテクチャでは、FP4演算をネイティブにサポートしており、GB200やGB300で7倍のGEMM性能を実現。この高速化により、前向き伝搬や勾配更新の全体プロセスが劇的に短縮され、トレーニング時間の削減とスケールアップが可能になった。 実証実験では、120億パラメータのハイブリッドMamba-Transformerモデルを10兆トークン規模で学習。NVFP4での学習結果は、FP8(8ビット)ベースラインとほぼ同等の検証損失曲線と、下流タスクでの精度を達成。学習の安定性や収束性も問題なく、従来の4ビット学習で見られる発散や不安定さを克服した。 この成果は、4ビット精度が単なる効率化ではなく、大規模モデル開発の新たな基準になり得ることを示している。AIファクトリーは、より多くのトークンを処理し、より多くの実験を短時間で実施できるようになり、先端モデルの開発スピードが飛躍的に向上。Amazon Web Services、Google Cloud、OpenAI、Kimi AIなど、主要テック企業との協業も進んでおり、NVFP4は今後のAI開発の中心技術へと成長しつつある。 結論として、NVFP4は「より少ないビットで、より多くの能力を生み出す」技術であり、AIの未来を支える新たなインフラとして、精度・速度・効率の三拍子を揃えた画期的進歩である。

Related Links

NVIDIA、4ビット精度で大規模言語モデルの事前学習を実現——NVFP4が効率と精度の新基準を設定 | ヘッドライン | HyperAI超神経