Command Palette

Search for a command to run...

1 个月前

Oyster-I:超越拒绝——负责任语言模型的建设性安全对齐

Ranjie Duan Jiexi Liu Xiaojun Jia Shiji Zhao Ruoxi Cheng et al

Oyster-I:超越拒绝——负责任语言模型的建设性安全对齐

摘要

大型语言模型(LLMs)通常部署安全机制,以防止有害内容的生成。当前大多数方法主要关注恶意用户带来的风险,常将风险视为对抗性事件,并依赖防御性拒绝回应。然而,在真实应用场景中,风险也可能来自处于心理困扰状态、寻求帮助的非恶意用户(例如存在自伤意图的用户)。在这些情况下,模型的回应可能显著影响用户后续行为。简单的拒绝回应可能导致用户重复提问、升级诉求,或转向不安全的平台,从而造成更严重的后果。为此,我们提出了建设性安全对齐(Constructive Safety Alignment, CSA),一种以用户为中心的安全范式。该范式在防范恶意滥用的同时,主动引导脆弱用户走向安全且有帮助的对话结果。在Oyster-I(Oy1)模型中实现的CSA,融合了博弈论驱动的用户反应预测、细粒度风险边界识别以及可解释的推理控制,将安全机制转化为建立用户信任的过程。Oy1在开源模型中实现了当前最先进的安全性,同时保持了高水平的通用能力。在我们提出的建设性基准测试(Constructive Benchmark)中,其表现出强大的建设性交互能力,接近GPT-5水平;在Strata-Sword越狱攻击数据集上展现出无与伦比的鲁棒性,已接近GPT-o1的表现。通过从“拒绝优先”转向“引导优先”的安全策略,CSA重新定义了模型与用户之间的关系,致力于构建的不仅是安全的系统,更是真正有意义、有帮助的AI。我们已开源Oy1模型、相关代码及基准测试数据集,以支持负责任、以用户为中心的人工智能发展。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供