23 天前

元认知增强推理模型：自对齐强化学习

Yoonjeon Kim Doohyuk Jang Eunho Yang

摘要

近期关于推理模型的研究聚焦于语言模型的元认知能力，即模型自主“知道如何思考”的能力。我们提出，大型推理模型缺乏这种元认知属性，其证据在于真实推理路径（true rollouts）与模型预测的元信息之间存在严重的不一致。我们认为，若能将元预测与真实推理路径对齐，将显著提升模型性能。为验证这一假设，我们设计了一种通过自对齐（Self-Alignment）提升元认知能力的训练流程（MASA），并证明了增强的元认知能力可直接转化为更高的推理准确率。与现有元认知推理模型不同，我们的方法无需依赖外部训练数据源，而是利用模型自身生成的信号来训练元认知能力。此外，该方法通过两项关键机制实现高效训练：一是过滤掉方差为零的提示（即过于简单或无解的问题），二是当推理路径明显无法导向正确答案时，及时终止冗长的推理过程。实验结果令人鼓舞：该策略在领域内任务上显著提升了准确率与训练效率，并展现出强大的跨领域泛化能力。具体而言，我们的方法可使GRPO训练速度提升超过1.28倍，即可在更短时间内达到相同性能；在AIME25基准上实现19.3%的准确率提升，在六个数学推理基准上平均提升6.2%。在元认知引导下进行训练，显著增强了模型在跨领域任务上的泛化能力——在GPQA-Diamond基准上提升3.87%，在涵盖逻辑、科学与编程领域的13个基准上实现2.08%的整体准确率提升。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

元认知增强推理模型：自对齐强化学习

Yoonjeon Kim Doohyuk Jang Eunho Yang

摘要

用 AI 构建 AI

Hyper Newsletters