Command Palette
Search for a command to run...

摘要
突破人类认知局限,是大语言模型(LLM)训练领域的一项关键前沿。诸如DeepResearch等专有智能体系统已在BrowseComp等极复杂的资讯检索基准测试中展现出超越人类的能力,这一成就此前在开源模型中尚属不可企及。我们认为,其成功的关键在于一种在开源模型中尚不存在的复杂推理模式:即在面对海量信息环境时,系统性降低极端不确定性的能力。基于这一洞察,我们提出了WebSailor——一种完整的后训练方法论,旨在赋予模型这一至关重要的能力。我们的方法包括:通过结构化采样与信息模糊化生成新型高不确定性任务,采用RFT冷启动策略,并结合一种高效的智能体强化学习训练算法——重复采样策略优化(DUPO)。通过这一集成化流程,WebSailor在复杂信息检索任务中显著超越所有现有开源智能体,性能逼近专有智能体水平,有效缩小了能力差距。