Command Palette

Search for a command to run...

17日前

経験合成を用いたエージェント学習のスケーリング

経験合成を用いたエージェント学習のスケーリング

要約

強化学習(RL)は、大規模言語モデル(LLM)エージェントが環境との相互作用を通じて自己改善を実現できるようにすることで、その能力を強化することができる。しかし、実用的な導入には、高コストなエピソード実行(rollouts)、タスクの多様性の不足、信頼性の低い報酬信号、インフラ構成の複雑さといった課題が存在し、スケーラブルな経験データの収集を阻害している。こうした課題に対処するため、本研究では、スケーラビリティを意識して多様な経験を合成することを目的とした、初めての統合型フレームワーク「DreamGym」を提案する。DreamGymは、高価な現実環境でのエピソード実行に依存せず、環境のダイナミクスを推論ベースの経験モデルに凝縮し、段階的推論によって一貫性のある状態遷移とフィードバック信号を生成することで、RL用のスケーラブルなエージェント実行データの収集を可能にする。遷移の安定性と品質を向上させるために、DreamGymはオフラインの現実世界データで初期化された経験リプレイバッファを活用し、継続的に新規の相互作用データで更新することで、エージェントの学習を積極的に支援する。知識獲得の効率を高めるために、DreamGymは現在のエージェント方策に挑戦する新たなタスクを適応的に生成し、より効果的なオンラインカリキュラム学習を実現する。多様な環境とエージェントバックボーンを用いた実験の結果、DreamGymは、完全に合成された環境下でも、シミュレーションから現実への転移(sim-to-real)のシナリオでも、RL学習の性能を顕著に向上させることを示した。WebArenaのような非RL対応タスクにおいては、すべてのベースラインを30%以上上回る性能を達成した。また、RL対応ではあるが高コストな環境では、合成された相互作用のみを用いて、GRPOやPPOと同等の性能を再現した。合成経験のみで学習した方策を現実環境のRLに転移する際、DreamGymは、現実世界での相互作用回数を大幅に削減しつつ、顕著な性能向上をもたらし、汎用的なRLに向けたスケーラブルな初期化戦略を提供する。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
経験合成を用いたエージェント学習のスケーリング | 論文 | HyperAI超神経