HyperAIHyperAI

Command Palette

Search for a command to run...

SkillRL:通过递归技能增强的强化学习进化Agent

摘要

大型语言模型(LLM)代理在复杂任务中已展现出惊人的性能,但通常处于孤立运行状态,难以从过往经验中学习。现有的基于记忆的方法主要存储原始轨迹,而这些轨迹往往冗余且包含大量噪声,导致代理无法提取高层次、可复用的行为模式,而这类模式对于实现泛化至关重要。本文提出SkillRL框架,通过自动技能发现与递归演化机制,弥合原始经验与策略优化之间的鸿沟。该方法引入一种基于经验的提炼机制,构建分层的技能库SkillBank;设计一种自适应检索策略,以获取通用性与任务特定性兼具的启发式规则;并提出一种递归演化机制,使技能库能够在强化学习过程中与代理策略协同进化。这些创新显著降低了令牌(token)使用量,同时提升了推理效率。在ALFWorld、WebShop以及七个搜索增强型任务上的实验结果表明,SkillRL达到了当前最优性能,相较于强基线模型平均提升超过15.3%,且在任务复杂度增加时仍保持稳健表现。代码已公开,获取地址见本文链接。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供