Absolute Zero:零数据强化自博弈推理
Andrew Zhao, Yiran Wu, Yang Yue, Tong Wu, Quentin Xu, Yang Yue, Matthieu Lin, Shenzhi Wang, Qingyun Wu, Zilong Zheng, Gao Huang
发布日期: 5/12/2025

摘要
强化学习与可验证奖励(RLVR)在通过基于结果的奖励直接学习以增强大型语言模型的推理能力方面展现出巨大潜力。近期的零设置(zero setting)RLVR研究避免了对推理过程进行监督标记,但仍依赖于人工整理的问题和答案集合进行训练。高质量的人工生成示例的稀缺性引发了对未来长期依赖人类监督的可扩展性的担忧,这一挑战在语言模型预训练领域已经显现。此外,在假设未来人工智能超越人类智能的情况下,由人类提供的任务可能对超级智能系统的学习潜力有限。为了解决这些担忧,我们提出了一种新的RLVR范式——绝对零度(Absolute Zero),在这种范式下,单个模型可以学会提出最大化自身学习进展的任务,并通过解决这些任务来提高推理能力,而无需依赖任何外部数据。在此范式下,我们引入了绝对零度推理器(Absolute Zero Reasoner, AZR),该系统通过使用代码执行器来验证提出的代码推理任务并验证答案,作为统一的可验证奖励来源,引导开放且有根据的学习。尽管完全不依赖外部数据进行训练,AZR在编码和数学推理任务上仍达到了整体最优性能(SOTA),超过了现有的依赖数万个领域内人工整理示例的零设置模型。此外,我们还证明了AZR可以有效应用于不同规模的模型,并且兼容各种模型类别。