Command Palette

Search for a command to run...

1 个月前

大型推理模型从有缺陷的思维中学习到更好的对齐

ShengYun Peng Eric Smith Ivan Evtimov Song Jiang Pin-Yu Chen Hongyuan Zhan Haozhu Wang Duen Horng Chau Mahesh Pasupuleti Jianfeng Chi

大型推理模型从有缺陷的思维中学习到更好的对齐

摘要

大型推理模型(LRMs)通过生成结构化的思维链(Chain-of-Thought, CoT)来“思考”,然后再输出最终答案。然而,这些模型在安全对齐方面的批判性推理能力仍然不足,当错误的前提被引入其推理过程时,极易产生偏见。为此,我们提出了RECAP(通过反向对齐预填充实现鲁棒安全对齐),这是一种基于强化学习(RL)的后训练原则性方法,旨在明确教导模型在面对错误推理路径时能够主动中断并转向安全、有益的回应。RECAP在合成生成的反向对齐CoT预填充与标准提示的混合数据上进行训练,无需额外的训练成本或对基础人类反馈强化学习(RLHF)框架的修改,即可显著提升模型的安全性与抗规避攻击能力,减少过度拒绝现象,同时完整保留核心推理能力——所有改进均在不增加推理阶段token消耗的前提下实现。大量分析表明,经过RECAP训练的模型展现出更频繁的自我反思行为,并在面对自适应攻击时仍保持稳健,即使在多次尝试干扰其推理过程后,依然能有效维持安全性能。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供