4 小时前

摘要

我们提出了 ThinkTwice，这是一个基于 Group Relative Policy Optimization (GRPO) 的简单两阶段框架，旨在通过联合优化 LLMs 来解决推理问题并精炼（refine）答案。在每一对训练步骤中，ThinkTwice 首先针对解决推理问题对模型进行优化，随后针对同一问题的自我解决方案的精炼过程进行优化；这两个阶段均使用相同的二元正确性奖励（binary correctness reward），且无需提供正确性信号或批判性标注（critique annotations）。通过在五个数学推理 benchmark 以及包括 Qwen3-4B 和 Olmo3-7B 在内的两个模型系列上的测试，结果表明 ThinkTwice 的推理与精炼性能均显著优于具有竞争力的在线策略优化（online policy optimization）基线。具体而言，在 Qwen3-4B 上，以 pass@4 为衡量标准，ThinkTwice 在 AIME 测试集上的表现，在精炼前比 GRPO 高出 5 个百分点，在经过一次自我精炼步骤后则高出 11.5 个百分点。对 ThinkTwice 训练动态的分析揭示了一种隐式的“先纠错后巩固”（rectify-then-fortify）的学习课程：在训练初期，精炼过程主要用于纠正错误；随着模型的提升，其重心会自然转向保留已经正确的解决方案，从而产生更具纠错性的奖励信号。我们的工作证明了将推理与自我精炼进行联合训练，是实现强化学习验证推理（RLVR）的一种原则性且有效的方法论。

源 PDF 查看代码