Command Palette
Search for a command to run...
Siwei Wang Yifei Shen Haoran Sun Shi Feng Shang-Hua Teng et al

要約
最近の強化学習(RL)手法は、大規模言語モデル(LLM)の計画能力を著しく向上させているが、その有効性の理論的根拠はまだ明確でない。本研究では、ポリシー勾配法(PG)およびQ学習を対象として、扱いやすいグラフベースの抽象化を用いて、RLの利点と限界を検証する。理論的分析の結果、教師ありファインチューニング(SFT)は共起に基づく誤った解(スパurious solution)を導入する可能性がある一方で、RLは主に探索によって正しく計画を実現していることが明らかになった。これにより、探索が一般化性能の向上に寄与する重要な役割を果たしていることが示された。一方で、PGが訓練中に出力の多様性が低下する「多様性崩壊(diversity collapse)」を示すことも明らかにした。これは、精度が完全に達成された後も持続する。これに対して、Q学習は2つの重要な利点を有する:非対策学習(off-policy learning)の実現と、収束時に多様性の保持。さらに、Q学習における報酬の巧妙な設計が、報酬の悪用(reward hacking)を回避するために不可欠であることを実証した。最後に、実世界の計画ベンチマークであるBlocksworldに本フレームワークを適用した結果、これらの行動特性が実際に観察されることを確認した。