Command Palette
Search for a command to run...
ThinkTwice: 面向推理与自我修正的 Large Language Models 联合优化研究
ThinkTwice: 面向推理与自我修正的 Large Language Models 联合优化研究
Difan Jiao Qianfeng Wen Blair Yang Zhenwei Tang Ashton Anderson
摘要
我们提出了 ThinkTwice,这是一个基于 Group Relative Policy Optimization (GRPO) 的简单两阶段框架,旨在通过联合优化 LLMs 来解决推理问题并精炼(refine)答案。在每一对训练步骤中,ThinkTwice 首先针对解决推理问题对模型进行优化,随后针对同一问题的自我解决方案的精炼过程进行优化;这两个阶段均使用相同的二元正确性奖励(binary correctness reward),且无需提供正确性信号或批判性标注(critique annotations)。通过在五个数学推理 benchmark 以及包括 Qwen3-4B 和 Olmo3-7B 在内的两个模型系列上的测试,结果表明 ThinkTwice 的推理与精炼性能均显著优于具有竞争力的在线策略优化(online policy optimization)基线。具体而言,在 Qwen3-4B 上,以 pass@4 为衡量标准,ThinkTwice 在 AIME 测试集上的表现,在精炼前比 GRPO 高出 5 个百分点,在经过一次自我精炼步骤后则高出 11.5 个百分点。对 ThinkTwice 训练动态的分析揭示了一种隐式的“先纠错后巩固”(rectify-then-fortify)的学习课程:在训练初期,精炼过程主要用于纠正错误;随着模型的提升,其重心会自然转向保留已经正确的解决方案,从而产生更具纠错性的奖励信号。我们的工作证明了将推理与自我精炼进行联合训练,是实现强化学习验证推理(RLVR)的一种原则性且有效的方法论。