Command Palette
Search for a command to run...
Oyster-I : Au-delà du refus - L’alignement sécuritaire constructif pour des modèles linguistiques responsables
Ranjie Duan Jiexi Liu Xiaojun Jia Shiji Zhao Ruoxi Cheng et al

Résumé
Les grands modèles linguistiques (LLM) mettent généralement en œuvre des mécanismes de sécurité afin d'éviter la génération de contenus nuisibles. La plupart des approches actuelles se concentrent étroitement sur les risques liés à des acteurs malveillants, en généralisant souvent ces risques comme des événements adverses et en s'appuyant sur des refus défensifs. Toutefois, dans les contextes réels, les risques proviennent également d'utilisateurs non malveillants qui cherchent de l'aide tout en étant en détresse psychologique (par exemple, des intentions d'autodestruction). Dans ces situations, la réponse du modèle peut fortement influencer les prochaines actions de l'utilisateur. Des refus simples peuvent les pousser à répéter leurs demandes, à les intensifier ou à migrer vers des plateformes non sécurisées, entraînant des conséquences encore plus graves. Nous introduisons le Constructive Safety Alignment (CSA), un paradigme centré sur l'humain, qui protège contre les abus malveillants tout en guidant activement les utilisateurs vulnérables vers des résultats sûrs et utiles. Implémenté dans Oyster-I (Oy1), le CSA combine une anticipation théorique des jeux des réactions utilisateur, une découverte fine des frontières de risque et un contrôle du raisonnement interprétable, transformant la sécurité en un processus de construction de confiance. Oy1 atteint un niveau d'excellence en matière de sécurité parmi les modèles open-source, tout en préservant des capacités générales élevées. Sur notre Constructive Benchmark, il démontre une forte implication constructive, proche de celle de GPT-5, et une robustesse inégalée sur le jeu de données d'exploitation Strata-Sword, approchant les performances de GPT-o1. En passant d'une sécurité fondée sur le refus à une sécurité fondée sur le guidage, le CSA redéfinit la relation entre modèle et utilisateur, visant des systèmes non seulement sûrs, mais véritablement utiles. Nous mettons à disposition Oy1, le code source et le benchmark afin de soutenir un développement d'IA responsable et centrée sur l'utilisateur.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.