3 个月前

摘要

多模态大语言模型（LLM）驱动的智能体近期在网页导航任务中展现出令人瞩目的能力，能够完成跨多个领域的复杂浏览任务。然而，当前的智能体仍面临重复性错误频发的问题，且缺乏在不同会话之间持续学习过往经验的能力，限制了其长期鲁棒性与样本效率。为此，我们提出 WebCoach——一种与模型无关的自演化框架，为网页浏览智能体赋予持久的跨会话记忆能力，从而在无需重新训练的前提下，实现更优的长期规划、反思能力以及持续学习。WebCoach 包含三个核心组件：（1）WebCondenser，用于将原始的导航日志标准化为简洁的摘要；（2）外部记忆存储（External Memory Store），将完整的轨迹组织为情景式经验；（3）教练模块（Coach），根据经验的相关性与时效性进行检索，并通过运行时钩子判断是否向智能体注入特定任务的建议。该设计使网页智能体能够突破其原始上下文窗口的限制，访问长期记忆，显著提升在复杂浏览任务中的鲁棒性。此外，WebCoach 通过持续从新的导航轨迹中提炼和优化情景记忆，实现了智能体的自我演化，使其在无需重新训练的情况下持续改进性能。在 WebVoyager 基准测试中的评估表明，WebCoach 能够持续提升三种不同 LLM 后端的浏览器使用智能体的性能。当采用 380 亿参数模型时，任务成功率从 47% 提升至 61%，同时保持或减少平均操作步数。值得注意的是，搭配 WebCoach 的小型基础模型，其性能已可媲美使用 GPT-4o 的同类智能体。

源 PDF