Command Palette

Search for a command to run...

1ヶ月前

エージェントの早期経験を用いた学習

Kai Zhang Xiangchao Chen Bo Liu Tianci Xue Zeyi Liao et al

エージェントの早期経験を用いた学習

要約

言語エージェントの長期的な目標の一つは、自身の経験を通じて学習・改善を続け、最終的に複雑な現実世界のタスクにおいて人間を上回ることである。しかし、強化学習を用いて経験データからエージェントを訓練することは、多くの環境において依然として困難である。その理由は、報酬が検証可能でない環境(例:ウェブサイト)や、非効率な長時間スパンのロールアウトを要する環境(例:複数ターンにわたるツール利用)が存在するためである。その結果、現在の大多数のエージェントは、専門家データに対する教師あり微調整に依存しており、スケーラビリティに難ありであり、汎化性能も低い。この制約は、専門家の示範行動の性質に起因する:示範は狭い範囲の状況しか捉えておらず、エージェントが経験する環境の多様性も限られている。本研究では、この課題を克服するため、中間的なアプローチである「初期経験(early experience)」という枠組みを提案する。これは、エージェント自身の行動によって生成されたインタラクションデータであり、報酬信号を用いずに、得られた将来の状態を監督信号として利用する。この枠組みの下で、2つの戦略の有効性を検証する:(1)暗黙的な世界モデル化(implicit world modeling):収集された状態を用いて、ポリシーを環境のダイナミクスに根ざさせること;(2)自己反省(self-reflection):劣った行動から学び、推論および意思決定能力を向上させること。我々は8つの多様な環境と複数のモデルファミリーにおいて評価を行った。その結果、提案手法は一貫して効果性とドメイン外での汎化性能を向上させ、初期経験の価値を示した。さらに、報酬が検証可能な環境においても、初期経験がその後の強化学習の強固な基盤を提供する可能性を示す有望な結果が得られた。これにより、初期経験は模倣学習と完全に経験に基づくエージェントの間を実用的につなぐ橋渡しの役割を果たすことが示された。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
エージェントの早期経験を用いた学習 | 論文 | HyperAI超神経