HyperAI초신경
7일 전

SafeWork-R1: AI-45법 하에서 안전성과 지능의 공진화

Yicheng Bao, Guanxu Chen, Mingkang Chen, Yunhao Chen, Chiyu Chen, Lingjie Chen, et al
SafeWork-R1: AI-45법 하에서 안전성과 지능의 공진화
초록

우리는 다중모달 추론 능력과 안전성을 동시에 발전시키는 SafeWork-R1을 소개합니다. 이 모델은 우리 연구진이 제안한 SafeLadder 프레임워크를 기반으로 개발되었으며, 이 프레임워크는 대규모, 점진적, 안전 중심의 강화학습 후 훈련(Reinforcement Learning post-training)을 포함하고, 다양한 원칙에 기반한 검증자(Verifiers) 세트를 통해 지원됩니다. 이전의 RLHF와 같은 정합성 방법이 단순히 인간의 선호도를 학습하는 것에 그쳤던 것과 달리, SafeLadder는 SafeWork-R1이 내재적인 안전 추론과 자기 반성 능력을 갖출 수 있도록 합니다. 이를 통해 안전에 대한 '아하!' 순간(aha moments)이 발생합니다. 특히 SafeWork-R1은 일반적인 능력에 영향을 주지 않으면서, 안전 관련 기준에서 기존의 기본 모델인 Qwen2.5-VL-72B에 비해 평균적으로 46.54%의 성능 향상을 달성하였으며, GPT-4.1과 Claude Opus 4와 같은 주요 사적 모델과 비교하여 최첨단의 안전 성능을 보여줍니다. 더욱 신뢰성을 강화하기 위해 두 가지의 차별화된 추론 시 간섭 방법과 철저한 검색 메커니즘을 도입하여 단계별 검증을 강제합니다. 마지막으로, SafeWork-R1-InternVL3-78B, SafeWork-R1-DeepSeek-70B, SafeWork-R1-Qwen2.5VL-7B라는 세 가지 모델을 추가로 개발하였습니다. 모든 최종 모델은 안전성과 능력이 상호작용하며 공진화할 수 있음을 보여주며, 이는 일반적인 목적의 AI를 구축하는 데 있어 우리의 프레임워크의 일반성과 신뢰성을 강조합니다.