Command Palette
Search for a command to run...
Édition attentive aux jetons des activations internes pour l'alignement des grands modèles linguistiques
Tianbo Wang Yuqing Ma Kewei Liao Chengzhao Yang Zhange Zhang Jiakai Wang Xianglong Liu

Résumé
Intervenir sur les activations internes des grands modèles linguistiques (LLM) constitue une approche efficace d’alignement au moment de l’inférence, permettant de réduire les comportements indésirables tels que la génération de contenus erronés ou nuisibles, et garantissant ainsi l’utilisation sûre et fiable des LLM. Toutefois, les méthodes précédentes négligent les écarts d’alignement entre différents tokens, entraînant une direction d’alignement déviante et une force d’édition rigide. Pour remédier à ces limitations, nous proposons une méthode d’édition consciente des tokens (TAE), permettant d’exploiter pleinement les informations d’alignement au niveau des tokens dans l’espace d’activations, afin d’obtenir des performances post-intervention supérieures. Plus précisément, un module d’agrégation graphique guidé par l’information mutuelle (MIG) construit d’abord un graphe guidé par l’information mutuelle afin d’exploiter les interactions informatives entre tokens, enrichissant ainsi les activations, améliorant la détection d’alignement et facilitant l’intervention. Ensuite, l’intervention adaptative consciente de l’écarts d’alignement (MAI) perçoit de manière globale le degré d’alignement inadéquat au niveau des tokens à partir de leur représentation et de leurs prédictions, afin de guider l’ajustement adaptatif de la force d’édition, renforçant ainsi la performance finale d’alignement. Des expérimentations étendues sur trois capacités d’alignement démontrent l’efficacité de TAE, dépassant notablement les méthodes de référence de 25,8 % sur le critère principal de véracité, avec un coût minimal.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.