Command Palette

Search for a command to run...

2 个月前

WebExplorer:用于训练长时序Web Agent的探索与演化

WebExplorer:用于训练长时序Web Agent的探索与演化

摘要

大型语言模型(LLMs)的研究范式正日益转向代理型应用,其中网页浏览能力成为从多样化在线来源获取信息的关键。然而,现有的开源网页代理在复杂任务上的信息检索能力普遍有限,或缺乏透明的实现方式。本文指出,其核心挑战在于缺乏用于信息检索的高质量挑战性数据。为解决这一瓶颈,我们提出 WebExplorer:一种基于模型探索的系统性数据生成方法,结合迭代式、由长至短的查询演化机制。该方法生成的查询-回答对具有高度挑战性,需依赖多步推理与复杂的网页导航。借助我们精心构建的高质量数据集,我们通过监督微调结合强化学习,成功训练出先进的网页代理模型 WebExplorer-8B。该模型支持长达 128K 的上下文长度,并可执行最多 100 次工具调用,从而实现长时程问题求解。在多个信息检索基准测试中,WebExplorer-8B 在同等规模模型中达到了当前最优性能。值得注意的是,作为一款 80 亿参数的模型,WebExplorer-8B 在强化学习训练后平均可有效执行约 16 次搜索操作,在 BrowseComp-en/zh 任务上表现优于 720 亿参数的 WebSailor-72B,并在 WebWalkerQA 与 FRAMES 基准测试中,超越所有参数量不超过 1000 亿的现有模型,取得最佳成绩。此外,尽管模型仅在知识密集型问答数据上进行训练,其在 HLE 基准测试中仍展现出强大的泛化能力。这些结果表明,我们的方法为构建长时程网页代理提供了一条切实可行的技术路径。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供