搜索自博弈 Search Self-play
搜索自博弈(Search Self-play,SSP)是由阿⾥巴巴夸克、北京⼤学、中⼭⼤学的研究团队于 2025 年 10 月提出的,相关研究成果发表于论文 Search Self-play: Pushing the Frontier of Agent Capability without Supervision 。
在搜索自博弈(SSP)中,目标 LLM 同时扮演两个交替的角色:问题提出者和问题解决者。提出者生成具有可验证真实答案的深度搜索查询,难度逐步提升,而解决者则通过多轮推理和搜索调用尝试回答生成的问题。为验证每个生成查询的正确性,研究人员从提出者的轨迹中收集所有搜索结果作为外部材料,然后进行检索增强生成(RAG)以检查解决者是否能在提供所有必要信息的情况下成功预测答案。通过上述设计,深度搜索智能体能够自主生成高质量的训练任务,并自行解决这些任务,从而无需人工标注验证,同时保持奖励的准确性。