7 个月前

Kuan Li Zhongwang Zhang Huifeng Yin Liwen Zhang Litu Ou Jialong Wu Wenbiao Yin Baixuan Li Zhengwei Tao Xinyu Wang

摘要

超越人类认知限制是大型语言模型（LLM）训练中的一个关键前沿。像DeepResearch这样的专有代理系统已经在极其复杂的寻息基准测试中展示了超人的能力，例如BrowseComp，这是以前无法实现的壮举。我们认为，它们的成功在于一种在开源模型中缺失的复杂推理模式：即在导航广阔的信息空间时，能够系统地减少极端不确定性。基于这一见解，我们引入了WebSailor，这是一种完整的后训练方法论，旨在培养这种关键能力。我们的方法包括通过结构化采样和信息混淆生成新的高不确定性任务、RFT冷启动以及一种高效的代理强化学习算法——重复采样策略优化（DUPO）。通过这一集成管道，WebSailor在复杂的信息寻息任务中显著优于所有开源代理，其性能与专有代理相当，从而缩小了能力差距。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

Kuan Li Zhongwang Zhang Huifeng Yin Liwen Zhang Litu Ou Jialong Wu Wenbiao Yin Baixuan Li Zhengwei Tao Xinyu Wang

摘要

超越人类认知限制是大型语言模型（LLM）训练中的一个关键前沿。像DeepResearch这样的专有代理系统已经在极其复杂的寻息基准测试中展示了超人的能力，例如BrowseComp，这是以前无法实现的壮举。我们认为，它们的成功在于一种在开源模型中缺失的复杂推理模式：即在导航广阔的信息空间时，能够系统地减少极端不确定性。基于这一见解，我们引入了WebSailor，这是一种完整的后训练方法论，旨在培养这种关键能力。我们的方法包括通过结构化采样和信息混淆生成新的高不确定性任务、RFT冷启动以及一种高效的代理强化学习算法——重复采样策略优化（DUPO）。通过这一集成管道，WebSailor在复杂的信息寻息任务中显著优于所有开源代理，其性能与专有代理相当，从而缩小了能力差距。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供