HyperAIHyperAI

Command Palette

Search for a command to run...

1日前
NVIDIA
LLM

NVIDIA、Model OptimizerでNemotron 3 UltraのNVFP4化

NVIDIAは550Bパラメータの基盤モデル「Nemotron 3 Ultra」向けに、次世代量子化形式「NVFP4」を採用したチェックポイントを公開した。NVIDIA Model Optimizerを用いた本手法は、モデルサイズを1121GBから352.3GBへ3.2倍に圧縮し、Blackwellアーキテクチャ環境においてデコード集中ワークロードで従来比最大5.9倍の推論スループットを達成。ベンチマークではBF16精度と同等の結果を維持している。 本チェックポイントの核心的な技術は、層ごとの感度に応じて混合精度を最適化したことにある。出力層やAttention線形層はBF16を維持しつつ、MoEルーティングエキスパート層にNVFP4を適用。FP4が持つ限られた8値の表現範囲による丸め誤差を軽減するため、「Four-over-Six」スケーリング手法を採用した。これは各ウェイトブロックごとに最大値4または6のグリッドを選択し再構成誤差を最小化するもので、これにより重みMSEを16.4%削減し、BF16基準で98.5%の精度回復を実現した。また、モデルのビット効率を検証した結果、5.03がベンチマーク性能の最適解であることを特定し、この値を量子化の設定基準とした。 量子化プロセスの効率化にも注力した。Megatron-LMを活用した並列キャリブレーションにより、従来要していたロードと計測時間の85分を9分へ短縮。NVIDIA Model OptimizerはYAML形式のカスタムレシピに対応し、特定層の量子化スキップやフォーマット切替を柔軟に定義可能だ。Hopper世代GPUでもW4A16形式へ自動変換されるよう設計されており、Multi-Token Predictionのメモリ収支を確保しつつ既存インフラとの互換性を維持する。 7月予定のModel Optimizer v0.46では「NVFP4_FOUR_OVER_SIX_CFG」が公式サポートされ、ワンクリックランチャーによるスラームクラスタへの展開が簡素化される。長文コンテキスト処理における重み転送のボトルネックを解消し、大規模言語モデルの実用化におけるハードウェア制約を緩和する新たな標準として期待されている。

関連リンク