Command Palette

Search for a command to run...

23 天前

元认知增强推理模型:自对齐强化学习

Yoonjeon Kim Doohyuk Jang Eunho Yang

元认知增强推理模型:自对齐强化学习

摘要

近期关于推理模型的研究聚焦于语言模型的元认知能力,即模型自主“知道如何思考”的能力。我们提出,大型推理模型缺乏这种元认知属性,其证据在于真实推理路径(true rollouts)与模型预测的元信息之间存在严重的不一致。我们认为,若能将元预测与真实推理路径对齐,将显著提升模型性能。为验证这一假设,我们设计了一种通过自对齐(Self-Alignment)提升元认知能力的训练流程(MASA),并证明了增强的元认知能力可直接转化为更高的推理准确率。与现有元认知推理模型不同,我们的方法无需依赖外部训练数据源,而是利用模型自身生成的信号来训练元认知能力。此外,该方法通过两项关键机制实现高效训练:一是过滤掉方差为零的提示(即过于简单或无解的问题),二是当推理路径明显无法导向正确答案时,及时终止冗长的推理过程。实验结果令人鼓舞:该策略在领域内任务上显著提升了准确率与训练效率,并展现出强大的跨领域泛化能力。具体而言,我们的方法可使GRPO训练速度提升超过1.28倍,即可在更短时间内达到相同性能;在AIME25基准上实现19.3%的准确率提升,在六个数学推理基准上平均提升6.2%。在元认知引导下进行训练,显著增强了模型在跨领域任务上的泛化能力——在GPQA-Diamond基准上提升3.87%,在涵盖逻辑、科学与编程领域的13个基准上实现2.08%的整体准确率提升。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
元认知增强推理模型:自对齐强化学习 | 论文 | HyperAI超神经