1 个月前

大型推理模型从有缺陷的思维中学习到更好的对齐

ShengYun Peng Eric Smith Ivan Evtimov Song Jiang Pin-Yu Chen Hongyuan Zhan Haozhu Wang Duen Horng Chau Mahesh Pasupuleti Jianfeng Chi

摘要

大型推理模型（LRMs）通过生成结构化的思维链（Chain-of-Thought, CoT）来“思考”，然后再输出最终答案。然而，这些模型在安全对齐方面的批判性推理能力仍然不足，当错误的前提被引入其推理过程时，极易产生偏见。为此，我们提出了RECAP（通过反向对齐预填充实现鲁棒安全对齐），这是一种基于强化学习（RL）的后训练原则性方法，旨在明确教导模型在面对错误推理路径时能够主动中断并转向安全、有益的回应。RECAP在合成生成的反向对齐CoT预填充与标准提示的混合数据上进行训练，无需额外的训练成本或对基础人类反馈强化学习（RLHF）框架的修改，即可显著提升模型的安全性与抗规避攻击能力，减少过度拒绝现象，同时完整保留核心推理能力——所有改进均在不增加推理阶段token消耗的前提下实现。大量分析表明，经过RECAP训练的模型展现出更频繁的自我反思行为，并在面对自适应攻击时仍保持稳健，即使在多次尝试干扰其推理过程后，依然能有效维持安全性能。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

大型推理模型从有缺陷的思维中学习到更好的对齐

ShengYun Peng Eric Smith Ivan Evtimov Song Jiang Pin-Yu Chen Hongyuan Zhan Haozhu Wang Duen Horng Chau Mahesh Pasupuleti Jianfeng Chi

摘要

用 AI 构建 AI

Hyper Newsletters