ZeroSearch:在无需搜索的情况下激励LLM的搜索能力
Hao Sun, Zile Qiao, Jiayan Guo, Xuanbo Fan, Yingyan Hou, Yong Jiang, Pengjun Xie, Fei Huang, Yan Zhang
发布日期: 5/13/2025

摘要
有效的信息搜索对于提高大型语言模型(LLMs)的推理和生成能力至关重要。近期的研究探索了通过在真实环境中与实时搜索引擎互动,利用强化学习(RL)来提升LLMs的搜索能力。尽管这些方法显示出令人鼓舞的结果,但它们面临两个主要挑战:(1) 不可控的文档质量:搜索引擎返回的文档质量往往难以预测,这为训练过程引入了噪声和不稳定性;(2) 过高的API成本:RL训练需要频繁的模拟运行,可能涉及数十万次搜索请求,这导致了巨大的API费用并严重限制了可扩展性。为了应对这些挑战,我们提出了ZeroSearch,这是一种强化学习框架,能够在不与真实搜索引擎交互的情况下激励LLMs的搜索能力。我们的方法首先通过轻量级监督微调将LLM转化为一个检索模块,该模块能够根据查询生成相关和有噪声的文档。在RL训练过程中,我们采用了基于课程的学习策略,逐步降低生成文档的质量,通过暴露模型于越来越具有挑战性的检索场景中,逐步激发其推理能力。大量的实验表明,ZeroSearch能够有效地激励LLMs的搜索能力,使用30亿参数的LLM作为检索模块时表现尤为突出。值得注意的是,70亿参数的检索模块达到了与真实搜索引擎相当的性能水平,而140亿参数的检索模块甚至超过了真实搜索引擎。此外,该方法在不同参数规模的基础模型和指令调优模型上均表现出良好的泛化能力,并且兼容多种强化学习算法。