HyperAIHyperAI

Command Palette

Search for a command to run...

SkillRL:再帰的スキル拡張強化学習を用いたエージェントの進化

概要

大規模言語モデル(LLM)エージェントは、複雑なタスクにおいて驚異的な成果を示しているが、しばしば孤立して動作し、過去の経験から学習できないという課題を抱えている。既存のメモリベースの手法は主に原始的な経験軌道を保存しているが、これらはしばしば冗長であり、ノイズが多く含まれる。その結果、エージェントは汎化に不可欠な高次元で再利用可能な行動パターンを効果的に抽出できず、学習の効率が低下する。本論文では、自動的なスキル発見と再帰的進化を通じて、原始的な経験とポリシーの改善の間のギャップを埋めるフレームワーク「SkillRL」を提案する。本手法は、経験に基づく知識蒸留機構を導入し、階層的なスキルライブラリ「SkillBank」を構築する。さらに、汎用的およびタスク固有のヒューリスティックを適応的に検索する戦略と、強化学習の過程でスキルライブラリとエージェントのポリシーが共進化する再帰的進化機構を実装している。これらの革新により、トークン消費量を大幅に削減しつつ、推論の有用性を向上させることができる。ALFWorld、WebShopおよび7つの検索拡張タスクにおける実験結果から、SkillRLが最先端の性能を達成し、強力なベースラインを平均15.3%以上上回ることを示した。また、タスクの複雑性が増しても堅牢性を維持している。コードは以下のURLで公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています