推理模型很固执:诊断推理模型中的指令覆盖问题
Doohyuk Jang, Yoonjeon Kim, Chanjae Park, Hyun Ryu, Eunho Yang
发布日期: 5/27/2025

摘要
大型语言模型在处理冗长且复杂的推理任务时表现出卓越的能力。然而,它们常常过度依赖熟悉的推理模式,这种现象我们称之为“推理僵化(reasoning rigidity)”。即使用户给出了明确的指示,这些模型也常常忽视显式的条件约束,转而采用习惯性的推理路径,导致得出错误的结论。这种行为在数学和逻辑谜题等领域尤其具有挑战性,因为这些任务对准确遵守限定条件有极高的要求。为了系统性地研究这一在先前研究中几乎未被深入探讨的现象,我们构建了一个由专家精心策划的诊断数据集,称为 \dataset{}。该数据集包括对现有数学基准(如 AIME 和 MATH500)所做的特别修改版本,以及重新设计的经典谜题,这些修改刻意要求模型偏离其惯常的推理策略。借助该数据集,我们识别出模型在默认采用固有推理路径时所表现出的典型错误模式,并将这种“污染”归类为三种主要类型:解释过载(Interpretation Overload),输入不信任(Input Distrust),指令部分注意(Partial Instruction Attention)。这三种模式都会导致模型忽视或扭曲用户提供的指令。我们公开发布该诊断数据集,以促进未来在缓解语言模型推理僵化方面的研究。