HyperAIHyperAI

Command Palette

Search for a command to run...

SafeWork-R1: Coevolution von Sicherheit und Intelligenz unter dem AI-45-Gesetz

Yicheng Bao Guanxu Chen Mingkang Chen Yunhao Chen Chiyu Chen Lingjie Chen et al

Zusammenfassung

Wir führen SafeWork-R1 ein, ein bahnbrechendes multimodales Reasoning-Modell, das die Ko-Evolution von Fähigkeiten und Sicherheit demonstriert. Es wurde mit unserem vorgeschlagenen SafeLadder-Framework entwickelt, das eine großskalige, schrittweise, sicherheitsorientierte Verstärkungslern-Post-Training-Methode beinhaltet und von einer Reihe von mehrprinzipiellen Verifikatoren unterstützt wird. Im Gegensatz zu früheren Ausrichtungsmethoden wie RLHF, die lediglich menschliche Präferenzen lernen, ermöglicht SafeLadder SafeWork-R1, inhärente Sicherheitsreasoning- und Selbstreflexionsfähigkeiten zu entwickeln, was zu Sicherheits-„Aha-Momenten“ führt. Insbesondere erzielt SafeWork-R1 eine durchschnittliche Verbesserung von 46,54 % gegenüber seinem Basismodell Qwen2.5-VL-72B in Sicherheits-basierten Benchmarks, ohne die allgemeinen Fähigkeiten zu beeinträchtigen, und erreicht eine state-of-the-art-Sicherheitsleistung im Vergleich zu führenden proprietären Modellen wie GPT-4.1 und Claude Opus 4. Um die Zuverlässigkeit weiter zu stärken, implementieren wir zwei unterschiedliche Interventionsmethoden während der Inferenz und einen deliberativen Suchmechanismus, um Schritt-für-Schritt-Verifikationen zu gewährleisten. Schließlich entwickeln wir weiterhin SafeWork-R1-InternVL3-78B, SafeWork-R1-DeepSeek-70B und SafeWork-R1-Qwen2.5VL-7B. Alle resultierenden Modelle zeigen, dass Sicherheit und Fähigkeit synergistisch ko-evolviert werden können, was die Verallgemeinerbarkeit unseres Frameworks bei der Entwicklung robuster, zuverlässiger und vertrauenswürdiger allgemeiner KI unterstreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp