Command Palette
Search for a command to run...
Bo Liu Chuanyang Jin Seungone Kim Weizhe Yuan Wenting Zhao Ilia Kulikov Xian Li Sainbayar Sukhbaatar Jack Lanchantin Jason Weston

摘要
自提升系统需要与环境持续互动以实现适应性进化。我们提出SPICE(Self-Play In Corpus Environments,语料库环境中的自对弈)框架,该框架采用单一模型承担两种角色:挑战者(Challenger)从大规模语料库中挖掘文档,生成多样化的推理任务;推理者(Reasoner)则负责解决这些任务。通过对抗性动态机制,挑战者在推理者能力边界处自动构建出持续进阶的学习课程,而语料库的约束则提供了丰富且近乎无穷的外部信号,支撑系统的持续优化。与现有缺乏语料约束的自对弈方法相比,SPICE在多个模型家族上均实现了稳定提升:在数学推理基准上提升8.9%,在通用推理基准上提升9.8%。我们的分析表明,文档约束是SPICE实现持续自我提升的关键要素——它能够不断生成日益复杂的任务目标,并最终达成这些目标,从而推动系统长期演进。