Command Palette
Search for a command to run...
ShengYun Peng Eric Smith Ivan Evtimov Song Jiang Pin-Yu Chen Hongyuan Zhan Haozhu Wang Duen Horng Chau Mahesh Pasupuleti Jianfeng Chi

摘要
大型推理模型(LRMs)通过生成结构化的思维链(Chain-of-Thought, CoT)来“思考”,然后再输出最终答案。然而,这些模型在安全对齐方面的批判性推理能力仍然不足,当错误的前提被引入其推理过程时,极易产生偏见。为此,我们提出了RECAP(通过反向对齐预填充实现鲁棒安全对齐),这是一种基于强化学习(RL)的后训练原则性方法,旨在明确教导模型在面对错误推理路径时能够主动中断并转向安全、有益的回应。RECAP在合成生成的反向对齐CoT预填充与标准提示的混合数据上进行训练,无需额外的训练成本或对基础人类反馈强化学习(RLHF)框架的修改,即可显著提升模型的安全性与抗规避攻击能力,减少过度拒绝现象,同时完整保留核心推理能力——所有改进均在不增加推理阶段token消耗的前提下实现。大量分析表明,经过RECAP训练的模型展现出更频繁的自我反思行为,并在面对自适应攻击时仍保持稳健,即使在多次尝试干扰其推理过程后,依然能有效维持安全性能。