Command Palette
Search for a command to run...
Yoonjeon Kim Doohyuk Jang Eunho Yang

摘要
近期关于推理模型的研究聚焦于语言模型的元认知能力,即模型自主“知道如何思考”的能力。我们提出,大型推理模型缺乏这种元认知属性,其证据在于真实推理路径(true rollouts)与模型预测的元信息之间存在严重的不一致。我们认为,若能将元预测与真实推理路径对齐,将显著提升模型性能。为验证这一假设,我们设计了一种通过自对齐(Self-Alignment)提升元认知能力的训练流程(MASA),并证明了增强的元认知能力可直接转化为更高的推理准确率。与现有元认知推理模型不同,我们的方法无需依赖外部训练数据源,而是利用模型自身生成的信号来训练元认知能力。此外,该方法通过两项关键机制实现高效训练:一是过滤掉方差为零的提示(即过于简单或无解的问题),二是当推理路径明显无法导向正确答案时,及时终止冗长的推理过程。实验结果令人鼓舞:该策略在领域内任务上显著提升了准确率与训练效率,并展现出强大的跨领域泛化能力。具体而言,我们的方法可使GRPO训练速度提升超过1.28倍,即可在更短时间内达到相同性能;在AIME25基准上实现19.3%的准确率提升,在六个数学推理基准上平均提升6.2%。在元认知引导下进行训练,显著增强了模型在跨领域任务上的泛化能力——在GPQA-Diamond基准上提升3.87%,在涵盖逻辑、科学与编程领域的13个基准上实现2.08%的整体准确率提升。