Command Palette
Search for a command to run...
Xu Wujiang Wentian Zhao Zhenting Wang Li Yu-Jhe Jin Can Jin Mingyu Mei Kai Wan Kun Metaxas Dimitris

要約
複数ターンにわたる環境において、1つのタスクを完了するのに1エピソード内で30ターン以上を要するようなスパース報酬設定で大規模言語モデル(LLM)エージェントを訓練することは、強化学習において根本的な課題である。本研究では、この設定に特有の重大な失敗モードを特定した。すなわち、「探索-活用の連鎖的失敗(exploration-exploitation cascade failure)」である。この連鎖的失敗は、初期段階におけるポリシーの過早収束に起因する。スパースなフィードバックにより、エージェントは低エントロピーで不完全な戦略に過早に固定されてしまう。その後、後期段階ではポリシーの崩壊が生じ、従来のエントロピー正則化が逆効果をもたらす。これは混沌とした探索を促進し、学習の安定性を損なう。本研究では、この失敗サイクルを打破するための汎用的なフレームワーク「エントロピー正則化ポリシー最適化(Entropy-regularized Policy Optimization, EPO)」を提案する。EPOは以下の3つの相互作用するメカニズムにより機能する:(1)複数ターン設定においてエントロピー正則化を採用し、探索を強化する;(2)過去の平均エントロピーを基準にポリシーのエントロピーを制限する「エントロピー平滑化正則化項」を導入し、急激な変動を防ぐ;(3)学習の各段階に応じて適応的に重みを調整する「段階別適応重み付け」により、探索と活用のバランスを最適化する。理論的分析により、EPOがエントロピー分散を単調に減少させつつ収束性を保証することを示した。実験において、EPOはScienceWorldで最大152%の性能向上、ALFWorldでは最大19.8%の向上を達成した。本研究は、複数ターンかつスパース報酬環境におけるLLMエージェントの訓練には、従来の強化学習とは根本的に異なるエントロピー制御戦略が必要であることを示しており、LLMエージェントの学習に広範な影響を持つ。