日期

7 个月前

组织

论文 URL

2510.18821

标签

机器学习

搜索自博弈（Search Self-play,SSP）是由阿⾥巴巴夸克、北京⼤学、中⼭⼤学的研究团队于 2025 年 10 月提出的，相关研究成果发表于论文 Search Self-play: Pushing the Frontier of Agent Capability without Supervision 。

在搜索自博弈（SSP）中，目标 LLM 同时扮演两个交替的角色：问题提出者和问题解决者。提出者生成具有可验证真实答案的深度搜索查询，难度逐步提升，而解决者则通过多轮推理和搜索调用尝试回答生成的问题。为验证每个生成查询的正确性，研究人员从提出者的轨迹中收集所有搜索结果作为外部材料，然后进行检索增强生成（RAG）以检查解决者是否能在提供所有必要信息的情况下成功预测答案。通过上述设计，深度搜索智能体能够自主生成高质量的训练任务，并自行解决这些任务，从而无需人工标注验证，同时保持奖励的准确性。