Command Palette
Search for a command to run...

要約
我々は、大規模言語モデル(LLM)向けに、量子化を強化した強化学習フレームワーク「QeRL」を提案する。強化学習(RL)はLLMの推論能力を発揮するために不可欠であるが、GPUメモリの大量消費と長時間のロールアウト(rollout)処理を要するという課題がある。QeRLは、NVFP4量子化と低ランク適応(LoRA)を組み合わせることで、RLのロールアウトフェーズを高速化するとともに、メモリオーバーヘッドを低減する。効率性に加え、本研究の結果から、量子化ノイズがポリシーのエントロピーを増加させ、探索能力を向上させ、RLプロセス中により優れた戦略の発見を可能にすることが明らかになった。さらに探索の最適化を図るため、QeRLはトレーニング中にノイズを動的に調整する「適応型量子化ノイズ(Adaptive Quantization Noise: AQN)」機構を導入している。実験の結果、QeRLはロールアウトフェーズにおいて1.5倍以上の高速化を達成した。また、本フレームワークは、単一のH100 80GB GPU上での32Bパラメータ規模LLMのRLトレーニングを初めて可能にした。さらに、全体的なRLトレーニング速度向上も実現した。16ビットLoRAやQLoRAと比較して、報酬の増加速度が速く、最終的な精度も高い結果を得た。7Bモデルでは、GSM8K(90.8%)やMATH 500(77.4%)といった数学ベンチマークにおいて、全パラメータ微調整(full-parameter fine-tuning)と同等の性能を達成した。これらの結果から、QeRLはLLMにおける強化学習トレーニングの効率的かつ効果的なフレームワークであることが確立された。