7ヶ月前

概要

我々は、能力と安全性の共進化を示す先進的なマルチモーダル推論モデルであるSafeWork-R1を紹介する。このモデルは、大規模で段階的な安全性重視の強化学習後処理を組み込んだ、我々が提案したSafeLadderフレームワークによって開発された。SafeLadderは、多様な原理に基づく検証器のセットによって支援されており、SafeWork-R1は人間の価値観を単純に学習する従来のアライメント手法（例えばRLHF）とは異なり、内面的な安全性推論と自己反省の能力を発展させることができる。これにより、安全性に関する「閃き（aha）の瞬間」が生じる。注目すべきは、SafeWork-R1が安全性関連のベンチマークにおいてベースモデルのQwen2.5-VL-72Bに対して平均で46.54%の改善を達成し、一般的な能力を損なうことなく、GPT-4.1やClaude Opus 4などの先進的な特許モデルと比較して最高水準の安全性性能を提供していることである。さらに信頼性を高めるために、2つの異なるインファレンス時介入手法と、検討的探索メカニズムを実装し、ステップレベルでの検証を強制している。最後に、SafeWork-R1-InternVL3-78B、SafeWork-R1-DeepSeek-70B、SafeWork-R1-Qwen2.5VL-7Bという3つの拡張モデルを開発した。すべての結果モデルは、安全性と能力が協調的に進化できることを示しており、本フレームワークが汎用性の高いAIを構築する上で汎用性があり、信頼性の高い、信頼できるシステムを構築する上で有効であることを示している。

ソースPDF