5 个月前

Kuan Li Zhongwang Zhang Huifeng Yin Rui Ye Yida Zhao Liwen Zhang Litu Ou Dingchu Zhang Xixi Wu Jialong Wu

摘要

突破人类认知局限，是大语言模型（LLM）训练领域的一项关键前沿。诸如DeepResearch等专有智能体系统已在BrowseComp等极复杂的资讯检索基准测试中展现出超越人类的能力，这一成就此前在开源模型中尚属不可企及。我们认为，其成功的关键在于一种在开源模型中尚不存在的复杂推理模式：即在面对海量信息环境时，系统性降低极端不确定性的能力。基于这一洞察，我们提出了WebSailor——一种完整的后训练方法论，旨在赋予模型这一至关重要的能力。我们的方法包括：通过结构化采样与信息模糊化生成新型高不确定性任务，采用RFT冷启动策略，并结合一种高效的智能体强化学习训练算法——重复采样策略优化（DUPO）。通过这一集成化流程，WebSailor在复杂信息检索任务中显著超越所有现有开源智能体，性能逼近专有智能体水平，有效缩小了能力差距。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

5 个月前

Kuan Li Zhongwang Zhang Huifeng Yin Rui Ye Yida Zhao Liwen Zhang Litu Ou Dingchu Zhang Xixi Wu Jialong Wu

摘要

突破人类认知局限，是大语言模型（LLM）训练领域的一项关键前沿。诸如DeepResearch等专有智能体系统已在BrowseComp等极复杂的资讯检索基准测试中展现出超越人类的能力，这一成就此前在开源模型中尚属不可企及。我们认为，其成功的关键在于一种在开源模型中尚不存在的复杂推理模式：即在面对海量信息环境时，系统性降低极端不确定性的能力。基于这一洞察，我们提出了WebSailor——一种完整的后训练方法论，旨在赋予模型这一至关重要的能力。我们的方法包括：通过结构化采样与信息模糊化生成新型高不确定性任务，采用RFT冷启动策略，并结合一种高效的智能体强化学习训练算法——重复采样策略优化（DUPO）。通过这一集成化流程，WebSailor在复杂信息检索任务中显著超越所有现有开源智能体，性能逼近专有智能体水平，有效缩小了能力差距。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供