HyperAI
vor 7 Tagen

SafeWork-R1: Coevolution von Sicherheit und Intelligenz unter dem AI-45-Gesetz

Yicheng Bao, Guanxu Chen, Mingkang Chen, Yunhao Chen, Chiyu Chen, Lingjie Chen, et al
SafeWork-R1: Coevolution von Sicherheit und Intelligenz unter dem AI-45-Gesetz
Abstract

Wir führen SafeWork-R1 ein, ein bahnbrechendes multimodales Reasoning-Modell, das die Ko-Evolution von Fähigkeiten und Sicherheit demonstriert. Es wurde mit unserem vorgeschlagenen SafeLadder-Framework entwickelt, das eine großskalige, schrittweise, sicherheitsorientierte Verstärkungslern-Post-Training-Methode beinhaltet und von einer Reihe von mehrprinzipiellen Verifikatoren unterstützt wird. Im Gegensatz zu früheren Ausrichtungsmethoden wie RLHF, die lediglich menschliche Präferenzen lernen, ermöglicht SafeLadder SafeWork-R1, inhärente Sicherheitsreasoning- und Selbstreflexionsfähigkeiten zu entwickeln, was zu Sicherheits-„Aha-Momenten“ führt. Insbesondere erzielt SafeWork-R1 eine durchschnittliche Verbesserung von 46,54 % gegenüber seinem Basismodell Qwen2.5-VL-72B in Sicherheits-basierten Benchmarks, ohne die allgemeinen Fähigkeiten zu beeinträchtigen, und erreicht eine state-of-the-art-Sicherheitsleistung im Vergleich zu führenden proprietären Modellen wie GPT-4.1 und Claude Opus 4. Um die Zuverlässigkeit weiter zu stärken, implementieren wir zwei unterschiedliche Interventionsmethoden während der Inferenz und einen deliberativen Suchmechanismus, um Schritt-für-Schritt-Verifikationen zu gewährleisten. Schließlich entwickeln wir weiterhin SafeWork-R1-InternVL3-78B, SafeWork-R1-DeepSeek-70B und SafeWork-R1-Qwen2.5VL-7B. Alle resultierenden Modelle zeigen, dass Sicherheit und Fähigkeit synergistisch ko-evolviert werden können, was die Verallgemeinerbarkeit unseres Frameworks bei der Entwicklung robuster, zuverlässiger und vertrauenswürdiger allgemeiner KI unterstreicht.