メタRLは言語エージェントにおける探索を誘発する
メタRLは言語エージェントにおける探索を誘発する
Yulun Jiang Liangze Jiang Damien Teney Michael Moor Maria Brbic
Abstract
強化学習(RL)により、大規模言語モデル(LLM)エージェントが環境と相互作用し、複数ターンにわたる長期的なタスクを解くことが可能となった。しかし、RLで訓練されたエージェントは、積極的な探索を要するタスクではしばしば困難に直面し、試行錯誤による経験からの効率的な適応が難しい場合がある。本論文では、テスト時における環境フィードバックから積極的に探索し学習できるようにする、汎用的なメタ強化学習(Meta-RL)フレームワーク「LaMer」を提案する。LaMerは以下の2つの主要な構成要素からなる:(i) エピソード間で訓練を行うフレームワークにより、探索行動の促進と長期的な報酬最適化を実現;(ii) フィードバック信号に基づいて、勾配更新を用いずにコンテキスト内でのポリシー適応を可能にする「反射」機構。多様な環境における実験結果から、LaMerはRLベースラインに対して顕著な性能向上を示し、それぞれSokoban、MineSweeper、Webshopにおいて11%、14%、19%の性能向上を達成した。さらに、RLで訓練されたエージェントと比較して、より困難なタスクや以前に見られなかったタスクへの汎化性能も優れていることが明らかになった。総合的に、本研究の結果は、メタ強化学習が言語エージェントにおける探索行動を原理的に促進する有効なアプローチであることを示しており、学習された探索戦略を通じて、新しい環境へのより堅牢な適応を可能にするものである。
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.