HyperAIHyperAI

Command Palette

Search for a command to run...

ThinkTwice: 面向推理与自我修正的 Large Language Models 联合优化研究

Difan Jiao Qianfeng Wen Blair Yang Zhenwei Tang Ashton Anderson

摘要

我们提出了 ThinkTwice,这是一个基于 Group Relative Policy Optimization (GRPO) 的简单两阶段框架,旨在通过联合优化 LLMs 来解决推理问题并精炼(refine)答案。在每一对训练步骤中,ThinkTwice 首先针对解决推理问题对模型进行优化,随后针对同一问题的自我解决方案的精炼过程进行优化;这两个阶段均使用相同的二元正确性奖励(binary correctness reward),且无需提供正确性信号或批判性标注(critique annotations)。通过在五个数学推理 benchmark 以及包括 Qwen3-4B 和 Olmo3-7B 在内的两个模型系列上的测试,结果表明 ThinkTwice 的推理与精炼性能均显著优于具有竞争力的在线策略优化(online policy optimization)基线。具体而言,在 Qwen3-4B 上,以 pass@4 为衡量标准,ThinkTwice 在 AIME 测试集上的表现,在精炼前比 GRPO 高出 5 个百分点,在经过一次自我精炼步骤后则高出 11.5 个百分点。对 ThinkTwice 训练动态的分析揭示了一种隐式的“先纠错后巩固”(rectify-then-fortify)的学习课程:在训练初期,精炼过程主要用于纠正错误;随着模型的提升,其重心会自然转向保留已经正确的解决方案,从而产生更具纠错性的奖励信号。我们的工作证明了将推理与自我精炼进行联合训练,是实现强化学习验证推理(RLVR)的一种原则性且有效的方法论。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供