il y a 25 jours

Édition attentive aux jetons des activations internes pour l'alignement des grands modèles linguistiques

Tianbo Wang Yuqing Ma Kewei Liao Chengzhao Yang Zhange Zhang Jiakai Wang Xianglong Liu

Résumé

Intervenir sur les activations internes des grands modèles linguistiques (LLM) constitue une approche efficace d’alignement au moment de l’inférence, permettant de réduire les comportements indésirables tels que la génération de contenus erronés ou nuisibles, et garantissant ainsi l’utilisation sûre et fiable des LLM. Toutefois, les méthodes précédentes négligent les écarts d’alignement entre différents tokens, entraînant une direction d’alignement déviante et une force d’édition rigide. Pour remédier à ces limitations, nous proposons une méthode d’édition consciente des tokens (TAE), permettant d’exploiter pleinement les informations d’alignement au niveau des tokens dans l’espace d’activations, afin d’obtenir des performances post-intervention supérieures. Plus précisément, un module d’agrégation graphique guidé par l’information mutuelle (MIG) construit d’abord un graphe guidé par l’information mutuelle afin d’exploiter les interactions informatives entre tokens, enrichissant ainsi les activations, améliorant la détection d’alignement et facilitant l’intervention. Ensuite, l’intervention adaptative consciente de l’écarts d’alignement (MAI) perçoit de manière globale le degré d’alignement inadéquat au niveau des tokens à partir de leur représentation et de leurs prédictions, afin de guider l’ajustement adaptatif de la force d’édition, renforçant ainsi la performance finale d’alignement. Des expérimentations étendues sur trois capacités d’alignement démontrent l’efficacité de TAE, dépassant notablement les méthodes de référence de 25,8 % sur le critère principal de véracité, avec un coût minimal.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Édition attentive aux jetons des activations internes pour l'alignement des grands modèles linguistiques

Tianbo Wang Yuqing Ma Kewei Liao Chengzhao Yang Zhange Zhang Jiakai Wang Xianglong Liu

Résumé

Construire l'IA avec l'IA

Hyper Newsletters