il y a 7 jours

SafeWork-R1 : Coévolution de la sécurité et de l'intelligence en vertu de la loi AI-45

Yicheng Bao, Guanxu Chen, Mingkang Chen, Yunhao Chen, Chiyu Chen, Lingjie Chen, et al

Résumé

Nous introduisons SafeWork-R1, un modèle de raisonnement multimodal de pointe qui illustre l'évolution conjointe des capacités et de la sécurité. Il a été développé grâce à notre cadre proposé, SafeLadder, qui intègre un apprentissage par renforcement orienté vers la sécurité à grande échelle et progressif, après l'entraînement, soutenu par un ensemble de vérificateurs fondés sur plusieurs principes. Contrairement aux méthodes d'alignement précédentes, telles que RLHF (Reinforcement Learning from Human Feedback), qui se limitent à apprendre les préférences humaines, SafeLadder permet à SafeWork-R1 de développer des capacités de raisonnement intrinsèque en matière de sécurité ainsi qu'une aptitude à la réflexion sur soi, entraînant ainsi des moments de compréhension « aha » en termes de sécurité. Notamment, SafeWork-R1 obtient une amélioration moyenne de 46,54 % par rapport à son modèle de base Qwen2.5-VL-72B sur les benchmarks liés à la sécurité, sans compromettre ses capacités générales, et présente des performances de sécurité de pointe par rapport aux modèles propriétaires de premier plan tels que GPT-4.1 et Claude Opus 4. Pour renforcer davantage sa fiabilité, nous mettons en œuvre deux méthodes d'intervention distinctes pendant l'inference et un mécanisme de recherche réfléchie, assurant ainsi une vérification au niveau des étapes. Enfin, nous développons davantage SafeWork-R1-InternVL3-78B, SafeWork-R1-DeepSeek-70B et SafeWork-R1-Qwen2.5VL-7. Tous ces modèles obtenus démontrent que la sécurité et les capacités peuvent évoluer de manière synergique, soulignant ainsi la généralisabilité de notre cadre dans la construction d'IA polyvalente, robuste, fiable et digne de confiance.