HyperAIHyperAI

Command Palette

Search for a command to run...

Console

搜索自博弈 Search Self-play

日期

4 天前

机构

Peking University
Sun Yat-sen University

论文链接

2510.18821

搜索自博弈(Search Self-play,SSP)是由阿⾥巴巴夸克、北京⼤学、中⼭⼤学的研究团队于 2025 年 10 月提出的,相关研究成果发表于论文 Search Self-play: Pushing the Frontier of Agent Capability without Supervision

在搜索自博弈(SSP)中,目标 LLM 同时扮演两个交替的角色:问题提出者和问题解决者。提出者生成具有可验证真实答案的深度搜索查询,难度逐步提升,而解决者则通过多轮推理和搜索调用尝试回答生成的问题。为验证每个生成查询的正确性,研究人员从提出者的轨迹中收集所有搜索结果作为外部材料,然后进行检索增强生成(RAG)以检查解决者是否能在提供所有必要信息的情况下成功预测答案。通过上述设计,深度搜索智能体能够自主生成高质量的训练任务,并自行解决这些任务,从而无需人工标注验证,同时保持奖励的准确性。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
搜索自博弈 Search Self-play | 百科 | HyperAI超神经