il y a un mois

Oyster-I : Au-delà du refus - L’alignement sécuritaire constructif pour des modèles linguistiques responsables

Ranjie Duan Jiexi Liu Xiaojun Jia Shiji Zhao Ruoxi Cheng et al

Résumé

Les grands modèles linguistiques (LLM) mettent généralement en œuvre des mécanismes de sécurité afin d'éviter la génération de contenus nuisibles. La plupart des approches actuelles se concentrent étroitement sur les risques liés à des acteurs malveillants, en généralisant souvent ces risques comme des événements adverses et en s'appuyant sur des refus défensifs. Toutefois, dans les contextes réels, les risques proviennent également d'utilisateurs non malveillants qui cherchent de l'aide tout en étant en détresse psychologique (par exemple, des intentions d'autodestruction). Dans ces situations, la réponse du modèle peut fortement influencer les prochaines actions de l'utilisateur. Des refus simples peuvent les pousser à répéter leurs demandes, à les intensifier ou à migrer vers des plateformes non sécurisées, entraînant des conséquences encore plus graves. Nous introduisons le Constructive Safety Alignment (CSA), un paradigme centré sur l'humain, qui protège contre les abus malveillants tout en guidant activement les utilisateurs vulnérables vers des résultats sûrs et utiles. Implémenté dans Oyster-I (Oy1), le CSA combine une anticipation théorique des jeux des réactions utilisateur, une découverte fine des frontières de risque et un contrôle du raisonnement interprétable, transformant la sécurité en un processus de construction de confiance. Oy1 atteint un niveau d'excellence en matière de sécurité parmi les modèles open-source, tout en préservant des capacités générales élevées. Sur notre Constructive Benchmark, il démontre une forte implication constructive, proche de celle de GPT-5, et une robustesse inégalée sur le jeu de données d'exploitation Strata-Sword, approchant les performances de GPT-o1. En passant d'une sécurité fondée sur le refus à une sécurité fondée sur le guidage, le CSA redéfinit la relation entre modèle et utilisateur, visant des systèmes non seulement sûrs, mais véritablement utiles. Nous mettons à disposition Oy1, le code source et le benchmark afin de soutenir un développement d'IA responsable et centrée sur l'utilisateur.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Oyster-I : Au-delà du refus - L’alignement sécuritaire constructif pour des modèles linguistiques responsables

Ranjie Duan Jiexi Liu Xiaojun Jia Shiji Zhao Ruoxi Cheng et al

Résumé

Construire l'IA avec l'IA

Hyper Newsletters