Command Palette
Search for a command to run...

要約
近年、NVIDIAおよびAMDのGPUでサポートされるハードウェア加速型のマイクロスケーリング4ビット浮動小数点形式であるMXFP4およびNVFP4は、大規模言語モデル(LLM)の推論を革命的に変える可能性を秘めている。しかし、その実用的な利点はまだ実証されていない。本研究では、訓練後の量子化(post-training quantization)におけるMXFP4およびNVFP4に対する包括的な分析を初めて行い、その期待と現実のパフォーマンスのギャップを明らかにした。分析の結果、最先端の手法がFP4において困難に直面していることが判明した。その背景には以下の2つの主要な課題がある:(1)NVFP4の小さなグループサイズにより、従来の外れ値緩和技術が理論的に無効化される;(2)MXFP4の2の累乗スケーリング量子化は、高額な誤差を引き起こすため、精度が著しく低下する。このギャップを埋めるために、我々はMicro-Rotated-GPTQ(MR-GPTQ)を提案する。これは、ブロック単位のハダマール変換とフォーマット特有の最適化を用いることで、FP4の特異な性質に適合した古典的GPTQ量子化アルゴリズムの変種である。本手法の有効性を裏付けるために、重みへの回転融合と高速なオンライン活性化計算により、MR-GPTQフォーマットを実現する高効率GPUカーネル群を構築した。その結果、NVIDIA B200ではレイヤー単位で最大3.6倍、エンドツーエンドで2.2倍の高速化を達成し、RTX5090ではレイヤー単位で最大6倍、エンドツーエンドで4倍の速度向上が実現された。広範な実験評価により、MR-GPTQは最先端の精度を同等または上回り、特にMXFP4の性能を顕著に向上させ、NVFP4に近づくまでに至った。結論として、FP4がINT4に対して自動的な向上とは言えない一方で、MR-GPTQのようなフォーマット特化型手法によって、新たな精度-性能トレードオフの可能性が開かれることを示した。