
摘要
自演化大型语言模型(LLMs)通过自主生成、优化并从自身经验中学习,为实现超智能提供了一条可扩展的路径。然而,现有训练此类模型的方法仍严重依赖大量人工标注的任务与标签,通常通过微调或强化学习实现,这成为推动人工智能系统迈向超越人类智能能力的根本瓶颈。为克服这一局限,我们提出R-Zero,一个完全自主的框架,能够从零开始自主生成训练数据。该框架从单一基础LLM出发,初始化两个具有不同角色的独立模型——挑战者(Challenger)与求解者(Solver)。这两个模型分别进行优化,并通过交互实现协同演化:挑战者因提出处于求解者能力边界附近的任务而获得奖励,求解者则因成功解决由挑战者提出的日益复杂的任务而获得奖励。这一过程无需任何预先存在的任务或标签,即可生成有针对性且持续自我提升的学习课程。实验结果表明,R-Zero在多种骨干LLM上显著提升了推理能力,例如,使Qwen3-4B-Base模型在数学推理基准测试中得分提升+6.49,在通用领域推理基准测试中提升+7.54。