1ヶ月前

エントロピー安全推論のための分位数アドバンテージ推定

Junkang Wu Kexin Huang Jiancan Wu An Zhang Xiang Wang Xiangnan He

要約

報酬の検証可能な強化学習（RLVR）は、大規模言語モデル（LLM）の推論能力を強化するが、学習過程で{エントロピーの崩壊}と{エントロピーの爆発}の間を繰り返す傾向がある。本研究では、これらのリスクの原因を、報酬フリー強化学習（例：GRPOやDAPO）で用いられる平均ベースラインに求め、報酬の外れ値下で負のアドバンテージを持つサンプルに対して不適切なペナルティを与える点に着目した。そこで、群ごとのK-分位数ベースラインに平均を置き換える「{分位数アドバンテージ推定}（QAE）」を提案する。QAEは、応答レベルで二つの動作モードを持つゲートを導入する：難易度の高いクエリ（p ≤ 1 − K）では稀な成功を強化し、易しいクエリ（p > 1 − K）では残存する失敗をターゲットとする。1次ソフトラックス更新の下で、{両側エントロピー安全性}を理論的に証明し、1ステップあたりのエントロピー変化に対して下限と上限を保証することで、エントロピーの爆発を抑制し、崩壊を防止する。実験的にも、この最小限の修正によりエントロピーが安定化し、評価の信頼性が高まり（調整されたKを用いることで、応答の約80%がゼロのアドバンテージを持つ）、Qwen3-8B/14B-BaseにおいてAIME 2024/2025およびAMC 2023の全テストセットで持続的なpass@1の向上を達成した。これらの結果は、RLVRのスケーラビリティにおいて、{ベースライン設計}がトークンレベルのヒューリスティックよりも本質的な役割を果たしていることを示している。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

エントロピー安全推論のための分位数アドバンテージ推定

Junkang Wu Kexin Huang Jiancan Wu An Zhang Xiang Wang Xiangnan He

要約

AI で AI を構築

Hyper Newsletters