HyperAIHyperAI
il y a un mois

Test d’intrusion des modèles linguistiques pour réduire les préjudices : méthodes, comportements d’échelle et leçons tirées

Deep Ganguli, Liane Lovitt, Jackson Kernion, Amanda Askell, Yuntao Bai, et al
Test d’intrusion des modèles linguistiques pour réduire les préjudices : méthodes, comportements d’échelle et leçons tirées
Résumé

Nous décrivons nos premiers efforts visant à soumettre les modèles linguistiques à une évaluation par « red teaming » afin, simultanément, de découvrir, mesurer et tenter de réduire leurs sorties potentiellement nuisibles. Nous présentons trois contributions principales. Premièrement, nous étudions les comportements d’échelle du red teaming sur trois tailles de modèles (2,7 milliards, 13 milliards et 52 milliards de paramètres) et quatre types de modèles : un modèle linguistique standard (LM) ; un LM incité à être utile, honnête et sans danger ; un LM utilisant un échantillonnage par rejet (rejection sampling) ; et un modèle entraîné pour être utile et sans danger grâce à une récompense par feedback humain par apprentissage par renforcement (RLHF). Nous constatons que les modèles RLHF deviennent progressivement plus difficiles à compromettre avec l’augmentation de leur taille, tandis que les autres types de modèles présentent une tendance plate en fonction de l’échelle. Deuxièmement, nous mettons à disposition notre jeu de données comprenant 38 961 attaques de red teaming, afin que d’autres puissent l’analyser et en tirer des enseignements. Nous fournissons également notre propre analyse des données, dans laquelle nous identifions une grande variété de sorties nuisibles, allant de langages offensifs à des sorties non violentes mais éthiquement problématiques, plus subtilles. Troisièmement, nous décrivons de manière exhaustive nos instructions, nos procédés, nos méthodologies statistiques ainsi que les incertitudes inhérentes au red teaming. Nous espérons que cette transparence accélérera notre capacité à collaborer en tant que communauté afin de développer ensemble des normes, des pratiques et des standards techniques pour le red teaming des modèles linguistiques.