Command Palette
Search for a command to run...
Genglin Liu Shijie Geng Sha Li Hejie Cui Sarah Zhang Xin Liu Tianyi Liu

摘要
多模态大语言模型(LLM)驱动的智能体近期在网页导航任务中展现出令人瞩目的能力,能够完成跨多个领域的复杂浏览任务。然而,当前的智能体仍面临重复性错误频发的问题,且缺乏在不同会话之间持续学习过往经验的能力,限制了其长期鲁棒性与样本效率。为此,我们提出 WebCoach——一种与模型无关的自演化框架,为网页浏览智能体赋予持久的跨会话记忆能力,从而在无需重新训练的前提下,实现更优的长期规划、反思能力以及持续学习。WebCoach 包含三个核心组件:(1)WebCondenser,用于将原始的导航日志标准化为简洁的摘要;(2)外部记忆存储(External Memory Store),将完整的轨迹组织为情景式经验;(3)教练模块(Coach),根据经验的相关性与时效性进行检索,并通过运行时钩子判断是否向智能体注入特定任务的建议。该设计使网页智能体能够突破其原始上下文窗口的限制,访问长期记忆,显著提升在复杂浏览任务中的鲁棒性。此外,WebCoach 通过持续从新的导航轨迹中提炼和优化情景记忆,实现了智能体的自我演化,使其在无需重新训练的情况下持续改进性能。在 WebVoyager 基准测试中的评估表明,WebCoach 能够持续提升三种不同 LLM 后端的浏览器使用智能体的性能。当采用 380 亿参数模型时,任务成功率从 47% 提升至 61%,同时保持或减少平均操作步数。值得注意的是,搭配 WebCoach 的小型基础模型,其性能已可媲美使用 GPT-4o 的同类智能体。