HyperAIHyperAI

Command Palette

Search for a command to run...

Édition attentive aux jetons des activations internes pour l'alignement des grands modèles linguistiques

Tianbo Wang Yuqing Ma Kewei Liao Chengzhao Yang Zhange Zhang Jiakai Wang Xianglong Liu

Abstract

Intervenir sur les activations internes des grands modèles linguistiques (LLM) constitue une approche efficace d’alignement au moment de l’inférence, permettant de réduire les comportements indésirables tels que la génération de contenus erronés ou nuisibles, et garantissant ainsi l’utilisation sûre et fiable des LLM. Toutefois, les méthodes précédentes négligent les écarts d’alignement entre différents tokens, entraînant une direction d’alignement déviante et une force d’édition rigide. Pour remédier à ces limitations, nous proposons une méthode d’édition consciente des tokens (TAE), permettant d’exploiter pleinement les informations d’alignement au niveau des tokens dans l’espace d’activations, afin d’obtenir des performances post-intervention supérieures. Plus précisément, un module d’agrégation graphique guidé par l’information mutuelle (MIG) construit d’abord un graphe guidé par l’information mutuelle afin d’exploiter les interactions informatives entre tokens, enrichissant ainsi les activations, améliorant la détection d’alignement et facilitant l’intervention. Ensuite, l’intervention adaptative consciente de l’écarts d’alignement (MAI) perçoit de manière globale le degré d’alignement inadéquat au niveau des tokens à partir de leur représentation et de leurs prédictions, afin de guider l’ajustement adaptatif de la force d’édition, renforçant ainsi la performance finale d’alignement. Des expérimentations étendues sur trois capacités d’alignement démontrent l’efficacité de TAE, dépassant notablement les méthodes de référence de 25,8 % sur le critère principal de véracité, avec un coût minimal.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Édition attentive aux jetons des activations internes pour l'alignement des grands modèles linguistiques | Papers | HyperAI