Command Palette
Search for a command to run...
Junkang Wu Kexin Huang Jiancan Wu An Zhang Xiang Wang Xiangnan He

要約
報酬の検証可能な強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を強化するが、学習過程で{エントロピーの崩壊}と{エントロピーの爆発}の間を繰り返す傾向がある。本研究では、これらのリスクの原因を、報酬フリー強化学習(例:GRPOやDAPO)で用いられる平均ベースラインに求め、報酬の外れ値下で負のアドバンテージを持つサンプルに対して不適切なペナルティを与える点に着目した。そこで、群ごとのK-分位数ベースラインに平均を置き換える「{分位数アドバンテージ推定}(QAE)」を提案する。QAEは、応答レベルで二つの動作モードを持つゲートを導入する:難易度の高いクエリ(p ≤ 1 − K)では稀な成功を強化し、易しいクエリ(p > 1 − K)では残存する失敗をターゲットとする。1次ソフトラックス更新の下で、{両側エントロピー安全性}を理論的に証明し、1ステップあたりのエントロピー変化に対して下限と上限を保証することで、エントロピーの爆発を抑制し、崩壊を防止する。実験的にも、この最小限の修正によりエントロピーが安定化し、評価の信頼性が高まり(調整されたKを用いることで、応答の約80%がゼロのアドバンテージを持つ)、Qwen3-8B/14B-BaseにおいてAIME 2024/2025およびAMC 2023の全テストセットで持続的なpass@1の向上を達成した。これらの結果は、RLVRのスケーラビリティにおいて、{ベースライン設計}がトークンレベルのヒューリスティックよりも本質的な役割を果たしていることを示している。