HyperAIHyperAI

Command Palette

Search for a command to run...

SafeWork-R1 : Coévolution de la sécurité et de l'intelligence en vertu de la loi AI-45

Yicheng Bao Guanxu Chen Mingkang Chen Yunhao Chen Chiyu Chen Lingjie Chen et al

Résumé

Nous introduisons SafeWork-R1, un modèle de raisonnement multimodal de pointe qui illustre l'évolution conjointe des capacités et de la sécurité. Il a été développé grâce à notre cadre proposé, SafeLadder, qui intègre un apprentissage par renforcement orienté vers la sécurité à grande échelle et progressif, après l'entraînement, soutenu par un ensemble de vérificateurs fondés sur plusieurs principes. Contrairement aux méthodes d'alignement précédentes, telles que RLHF (Reinforcement Learning from Human Feedback), qui se limitent à apprendre les préférences humaines, SafeLadder permet à SafeWork-R1 de développer des capacités de raisonnement intrinsèque en matière de sécurité ainsi qu'une aptitude à la réflexion sur soi, entraînant ainsi des moments de compréhension « aha » en termes de sécurité. Notamment, SafeWork-R1 obtient une amélioration moyenne de 46,54 % par rapport à son modèle de base Qwen2.5-VL-72B sur les benchmarks liés à la sécurité, sans compromettre ses capacités générales, et présente des performances de sécurité de pointe par rapport aux modèles propriétaires de premier plan tels que GPT-4.1 et Claude Opus 4. Pour renforcer davantage sa fiabilité, nous mettons en œuvre deux méthodes d'intervention distinctes pendant l'inference et un mécanisme de recherche réfléchie, assurant ainsi une vérification au niveau des étapes. Enfin, nous développons davantage SafeWork-R1-InternVL3-78B, SafeWork-R1-DeepSeek-70B et SafeWork-R1-Qwen2.5VL-7. Tous ces modèles obtenus démontrent que la sécurité et les capacités peuvent évoluer de manière synergique, soulignant ainsi la généralisabilité de notre cadre dans la construction d'IA polyvalente, robuste, fiable et digne de confiance.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp