HyperAIHyperAI

Command Palette

Search for a command to run...

SafeWork-R1:AI-45法下における安全と知能の共進化

Yicheng Bao Guanxu Chen Mingkang Chen Yunhao Chen Chiyu Chen Lingjie Chen et al

概要

我々は、能力と安全性の共進化を示す先進的なマルチモーダル推論モデルであるSafeWork-R1を紹介する。このモデルは、大規模で段階的な安全性重視の強化学習後処理を組み込んだ、我々が提案したSafeLadderフレームワークによって開発された。SafeLadderは、多様な原理に基づく検証器のセットによって支援されており、SafeWork-R1は人間の価値観を単純に学習する従来のアライメント手法(例えばRLHF)とは異なり、内面的な安全性推論と自己反省の能力を発展させることができる。これにより、安全性に関する「閃き(aha)の瞬間」が生じる。注目すべきは、SafeWork-R1が安全性関連のベンチマークにおいてベースモデルのQwen2.5-VL-72Bに対して平均で46.54%の改善を達成し、一般的な能力を損なうことなく、GPT-4.1やClaude Opus 4などの先進的な特許モデルと比較して最高水準の安全性性能を提供していることである。さらに信頼性を高めるために、2つの異なるインファレンス時介入手法と、検討的探索メカニズムを実装し、ステップレベルでの検証を強制している。最後に、SafeWork-R1-InternVL3-78B、SafeWork-R1-DeepSeek-70B、SafeWork-R1-Qwen2.5VL-7Bという3つの拡張モデルを開発した。すべての結果モデルは、安全性と能力が協調的に進化できることを示しており、本フレームワークが汎用性の高いAIを構築する上で汎用性があり、信頼性の高い、信頼できるシステムを構築する上で有効であることを示している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
SafeWork-R1:AI-45法下における安全と知能の共進化 | 記事 | HyperAI超神経