SafeKey : Nouveau Cadre pour Améliorer la Sécurité des Modèles de Grandes Dimensions avec une Réduction de 9,6% des Risques Dangereux
Des chercheurs ont élaboré le cadre SafeKey afin de réduire le taux de dangerosité des grandes modèles d'inférence de 9,6%. Ce cadre vise à renforcer la sécurité au sein même des modèles de langage. À cette fin, l'équipe a mis en place deux objectifs d'optimisation supplémentaires. 2.1 Tête de sécurité à double voie : Accentuer les signaux de sécurité Pour renforcer les indicateurs de sécurité au sein des modèles, les chercheurs ont développé la Tête de sécurité à double voie (Dual-Path Safety Head). Cette fonctionnalité comprend deux parties : Contenu intégral du prompt : Elle s'assure que tous les aspects du "prompt" (demande initiale) soient considérés pour évaluer le risque potentiel. Processus de réponse du modèle : Elle examine comment le modèle interprète la demande, permettant ainsi une meilleure identification des signaux de danger. La Tête de sécurité à double voie intègre des prédicteurs spécifiques à chaque phase du traitement de la demande. Ces prédicteurs permettent de renforcer les signaux de sécurité avant la génération finale des "réponses critiques", assurant ainsi une détection plus précise des éléments dangereux. 2.2 Modèle d'interrogation masquée : Favoriser l'autonomie du modèle Afin de garantir que le modèle prête davantage attention aux aspects de sécurité dans son processus d'interprétation des demandes, l'équipe a introduit le Modèle d'interrogation masquée (Query-Mask Modeling). Ce modèle cache certains tokens (éléments de la demande) pendant l'entraînement, obligeant ainsi le modèle à se concentrer uniquement sur sa propre compréhension et son analyse du "prompt". Cette approche clever oblige le modèle à être "fidèle" et à "utiliser" son interprétation interne, déjà enrichie d'indicateurs de sécurité, pour générer des réponses critiques. En conséquence, cela renforce grandement la capacité du modèle à prendre des décisions sécurisées de manière autonome et stable. Résultats et impacts Les tests réalisés avec SafeKey montrent que ce cadre réduit significativement le risque d'engendrer des réponses potendtement dangereuses. Grâce à la combinaison de la Tête de sécurité à double voie et du Modèle d'interrogation masquée, le taux de dangerosité a été abaissé de 9,6%, ce qui témoigne de l'efficacité de l'approche en matière de sécurité et de stabilité des modèles linguistiques. SafeKey est un pas important vers la création de modèles de langage plus responsables et sûrs, contribuant ainsi à la confiance des utilisateurs dans ces technologies.
