Command Palette
Search for a command to run...
Trop bon pour être mauvais : À propos de l'échec des modèles linguistiques massifs à incarner des méchants

Résumé
Les modèles de langage à grande échelle (LLM) sont de plus en plus sollicités pour des tâches de génération créative, notamment la simulation de personnages fictifs. Toutefois, leur capacité à incarner des personnalités non prosociales ou antagonistes reste largement inexplorée. Nous supposons qu’une incompatibilité fondamentale existe entre l’alignement en matière de sécurité des LLM modernes et la tâche d’interprétation authentique de personnages moralement ambigus ou malveillants. Afin d’explorer cette hypothèse, nous introduisons le benchmark Moral RolePlay, un nouveau jeu de données comprenant une échelle de cinq niveaux d’alignement moral et un ensemble d’évaluation équilibré permettant une évaluation rigoureuse. Nous soumettons des LLM d’avant-garde à l’interprétation de personnages allant des parangons moraux aux véritables méchants. Notre évaluation à grande échelle révèle une baisse constante et monotone de la fidélité de l’interprétation à mesure que la moralité du personnage diminue. Nous constatons que les modèles peinent particulièrement avec des traits directement opposés aux principes de sécurité, tels que « trompeur » ou « manipulateur », souvent en remplaçant la malveillance nuancée par une agressivité superficielle. En outre, nous démontrons que la compétence générale d’un chatbot en conversation est un mauvais prédicteur de la capacité à incarner un méchant, les modèles fortement alignés sur la sécurité se montrant particulièrement déficients. Ce travail fournit la première preuve systématique de cette limitation cruciale, mettant en évidence un conflit majeur entre la sécurité du modèle et la fidélité créative. Notre benchmark et nos résultats ouvrent la voie au développement de méthodes d’alignement plus nuancées et plus sensibles au contexte.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.