Command Palette
Search for a command to run...
Ziniu Li Congliang Chen Tianyun Yang Tian Ding Ruoyu Sun Ge Zhang Wenhao Huang Zhi-Quan Luo

要約
大規模言語モデル(LLM)は強化学習を用いて自己改善が可能であり、その際、探索用の軌道を生成することでより良い解を発見する。しかし、このような探索プロセスは計算コストが非常に高いため、現在の手法では各タスクに限られた探索予算を割り当てざるを得ない。この均一な予算配分は問題を引き起こす端点ケースを生じさせる:容易なタスクは常に成功し、困難なタスクは常に失敗する。その結果、広く用いられるグループ相対方策最適化(GRPO)では、両者とも学習更新時に勾配がゼロとなる。本研究では、探索予算の配分という視点からこの問題にアプローチする。各タスクの探索を「価値」と「コスト」を有する「アイテム」と見なし、古典的なナップサック問題と関連付ける。この定式化により、モデルの現在の学習状態に応じて資源を適応的に分配する最適な割り当てルールを導出できる。GRPOに適用した結果、学習中における非ゼロ方策勾配の有効比率を20〜40%向上させた。このアプローチは計算上の「無料の利益」ともいえる。学習が飽和しているタスクから、学習効果が最も大きいタスクへと探索予算を再配分可能となる。その結果、均一配分では計算的に不可能な規模(例:93回のロールアウト)の大きな予算を、特に困難な問題に対して割り当てることが可能になった。これらの改善は数学的推論ベンチマークにおいて実質的な性能向上をもたらし、平均で2〜4ポイントの向上、特定タスクでは最大9ポイントの改善を達成した。注目すべきは、従来の均質な予算配分で同等の性能を達成するには約2倍の計算リソースが必要となることである。