Command Palette
Search for a command to run...
Dr. Zero:无需训练数据的自演化搜索Agent
Dr. Zero:无需训练数据的自演化搜索Agent
Zhenrui Yue Kartikeya Upasani Xianjun Yang Suyu Ge Shaoliang Nie Yuning Mao Zhe Liu Dong Wang
Abstract
随着高质量数据的获取日益困难,无数据自演化(data-free self-evolution)逐渐成为一种极具前景的新范式。该方法使大型语言模型(LLMs)能够自主生成并求解复杂问题,从而提升其推理能力。然而,多轮搜索代理在无数据自演化场景中面临挑战,主要受限于问题多样性不足,以及多步推理与工具使用所带来巨大的计算开销。在本工作中,我们提出 Dr. Zero,一个使搜索代理在无需任何训练数据的情况下仍能有效自演化的框架。具体而言,我们设计了一种自演化反馈循环:由一个提议者(proposer)生成多样化的问题,用于训练一个基于相同基础模型初始化的求解器(solver)。随着求解器的不断进化,它会激励提议者生成越来越具有挑战性但依然可解的任务,从而构建出自动化的课程体系,持续优化两个代理。为提升训练效率,我们进一步引入了分跳分组相对策略优化(Hop-Grouped Relative Policy Optimization, HRPO)。该方法通过将结构相似的问题聚类,构建群体层面的基线,有效降低评估每个查询个体难度与可解性的采样开销。结果表明,HRPO在不损害性能或稳定性的前提下,显著降低了求解器训练的计算需求。大量实验结果表明,无数据的 Dr. Zero 在性能上可达到甚至超越完全监督的搜索代理,证明了复杂推理与搜索能力完全可以通过自演化过程自发涌现。