HyperAI超神经
7 days ago

SafeWork-R1: 在AI-45法则下的安全与智能协同进化

Yicheng Bao, Guanxu Chen, Mingkang Chen, Yunhao Chen, Chiyu Chen, Lingjie Chen, et al
SafeWork-R1: 在AI-45法则下的安全与智能协同进化
摘要

我们引入了SafeWork-R1,这是一种前沿的多模态推理模型,展示了能力与安全性的共同进化。该模型是基于我们提出的SafeLadder框架开发的,该框架结合了大规模、渐进式、以安全为导向的强化学习后训练方法,并配备了一套多原则验证器。与以往的对齐方法(如RLHF,仅学习人类偏好)不同,SafeLadder使SafeWork-R1具备了内在的安全推理和自我反思能力,从而实现了安全性的“顿悟”时刻。值得注意的是,SafeWork-R1在与安全性相关的基准测试中,相比其基础模型Qwen2.5-VL-72B平均提升了46.54%,同时并未牺牲通用能力,并在安全性表现上达到了与领先专有模型(如GPT-4.1和Claude Opus 4)相当的水平。为进一步增强其可靠性,我们实现了两种不同的推理阶段干预方法以及一种审慎搜索机制,以实现逐步骤的验证。最后,我们进一步开发了SafeWork-R1-InternVL3-78B、SafeWork-R1-DeepSeek-70B和SafeWork-R1-Qwen2.5VL-7B等模型。所有这些模型均表明,安全性与能力可以协同进化,突显了我们框架在构建稳健、可靠和可信的通用人工智能方面的普适性。