Command Palette

Search for a command to run...

2 个月前

WebSailor-V2:通过合成数据与可扩展强化学习弥合专有Agent的鸿沟

WebSailor-V2:通过合成数据与可扩展强化学习弥合专有Agent的鸿沟

摘要

突破人类认知局限,是大语言模型(LLM)训练领域的一项关键前沿。诸如DeepResearch等专有智能体系统已在BrowseComp等极复杂的资讯检索基准测试中展现出超越人类的能力,这一成就此前在开源模型中尚属不可企及。我们认为,其成功的关键在于一种在开源模型中尚不存在的复杂推理模式:即在面对海量信息环境时,系统性降低极端不确定性的能力。基于这一洞察,我们提出了WebSailor——一种完整的后训练方法论,旨在赋予模型这一至关重要的能力。我们的方法包括:通过结构化采样与信息模糊化生成新型高不确定性任务,采用RFT冷启动策略,并结合一种高效的智能体强化学习训练算法——重复采样策略优化(DUPO)。通过这一集成化流程,WebSailor在复杂信息检索任务中显著超越所有现有开源智能体,性能逼近专有智能体水平,有效缩小了能力差距。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供