HyperAIHyperAI
il y a 17 jours

Évaluation par simulation des grands modèles linguistiques à l’aide d’une chaîne d’énoncés pour l’alignement en matière de sécurité

Rishabh Bhardwaj, Soujanya Poria
Évaluation par simulation des grands modèles linguistiques à l’aide d’une chaîne d’énoncés pour l’alignement en matière de sécurité
Résumé

Les grands modèles linguistiques (LLM) ont conquis le monde grâce à leurs capacités polyvalentes massives, obtenues simplement en optimisant une tâche de prédiction du mot suivant. Avec l’émergence de leurs propriétés et de leurs connaissances intégrées, le risque de production par ces modèles de contenus nuisibles augmente, les rendant inadaptés à un déploiement à grande échelle destiné au public. Dans ce travail, nous proposons une nouvelle évaluation de sécurité, RED-EVAL, qui met en œuvre une stratégie de « red-teaming ». Nous montrons que même des modèles largement déployés sont vulnérables à la technique de promptage basée sur la chaîne d’énoncés (Chain of Utterances, CoU), permettant de contourner (jailbreak) des systèmes LLM à code fermé tels que GPT-4 et ChatGPT, les poussant à répondre de manière non éthique à plus de 65 % et 73 % des requêtes nuisibles, respectivement. Nous démontrons également la cohérence de RED-EVAL sur 8 modèles open-source, où plus de 86 % des tentatives de red-teaming aboutissent à des réponses nuisibles. Ensuite, nous proposons RED-INSTRUCT, une méthode pour l’alignement en matière de sécurité des LLM. Elle s’articule en deux phases : 1) Collecte de données HARMFULQA : en exploitant la technique CoU, nous constituons un jeu de données comprenant 1 900 questions nuisibles couvrant une large gamme de sujets, ainsi que 9 500 échanges sûrs et 7 300 échanges nuisibles extraits de ChatGPT ; 2) SAFE-ALIGN : nous montrons comment ce jeu de données conversationnel peut être utilisé pour aligner les LLM sur des critères de sécurité, en minimisant la log-vraisemblance négative des réponses utiles tout en pénalisant les réponses nuisibles via une accentuation du gradient sur la perte par échantillon. Notre modèle STARLING, une version fine-tunée de Vicuna-7B, se révèle mieux aligné sur la sécurité lorsqu’il est évalué sur RED-EVAL et sur le benchmark HHH, tout en préservant l’utilité des modèles de base (TruthfulQA, MMLU et BBH).

Évaluation par simulation des grands modèles linguistiques à l’aide d’une chaîne d’énoncés pour l’alignement en matière de sécurité | Articles de recherche récents | HyperAI