Command Palette

Search for a command to run...

7 天前

WebCoach:具有跨会话记忆引导的自演化Web Agent

Genglin Liu Shijie Geng Sha Li Hejie Cui Sarah Zhang Xin Liu Tianyi Liu

WebCoach:具有跨会话记忆引导的自演化Web Agent

摘要

多模态大语言模型(LLM)驱动的智能体近期在网页导航任务中展现出令人瞩目的能力,能够完成跨多个领域的复杂浏览任务。然而,当前的智能体仍面临重复性错误频发的问题,且缺乏在不同会话之间持续学习过往经验的能力,限制了其长期鲁棒性与样本效率。为此,我们提出 WebCoach——一种与模型无关的自演化框架,为网页浏览智能体赋予持久的跨会话记忆能力,从而在无需重新训练的前提下,实现更优的长期规划、反思能力以及持续学习。WebCoach 包含三个核心组件:(1)WebCondenser,用于将原始的导航日志标准化为简洁的摘要;(2)外部记忆存储(External Memory Store),将完整的轨迹组织为情景式经验;(3)教练模块(Coach),根据经验的相关性与时效性进行检索,并通过运行时钩子判断是否向智能体注入特定任务的建议。该设计使网页智能体能够突破其原始上下文窗口的限制,访问长期记忆,显著提升在复杂浏览任务中的鲁棒性。此外,WebCoach 通过持续从新的导航轨迹中提炼和优化情景记忆,实现了智能体的自我演化,使其在无需重新训练的情况下持续改进性能。在 WebVoyager 基准测试中的评估表明,WebCoach 能够持续提升三种不同 LLM 后端的浏览器使用智能体的性能。当采用 380 亿参数模型时,任务成功率从 47% 提升至 61%,同时保持或减少平均操作步数。值得注意的是,搭配 WebCoach 的小型基础模型,其性能已可媲美使用 GPT-4o 的同类智能体。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供