HyperAIHyperAI

Command Palette

Search for a command to run...

Token-orientierte Bearbeitung interner Aktivierungen zur Ausrichtung großer Sprachmodelle

Tianbo Wang Yuqing Ma Kewei Liao Chengzhao Yang Zhange Zhang Jiakai Wang Xianglong Liu

Abstract

Die Beeinflussung der internen Aktivierungen großer Sprachmodelle (LLMs) stellt einen effektiven Ansatz zur Ausrichtung während der Inferenz dar, um unerwünschtes Verhalten, wie die Generierung fehlerhafter oder schädlicher Inhalte, zu reduzieren und somit sichere und zuverlässige Anwendungen von LLMs zu gewährleisten. Allerdings ignorieren bisherige Methoden die Unterschiede in der Ausrichtungsabweichung zwischen verschiedenen Tokens, was zu einer abweichenden Ausrichtungsrichtung und einer unflexiblen Bearbeitungsstärke führt. Um diese Probleme anzugehen, schlagen wir einen tokenbasierten Bearbeitungsansatz (Token-aware Editing, TAE) vor, der die informationelle Ausrichtung auf Token-Ebene im Aktivierungsraum vollständig ausnutzt und somit eine überlegene Leistung nach der Intervention ermöglicht. Konkret entwickelt ein durch die Mutual Information (MI) geleiteter Graphaggregationsmodul (MIG) zunächst einen MI-gesteuerten Graphen, um die informativen Wechselwirkungen zwischen Tokens auszunutzen und so die Aktivierungen zu bereichern, was die Ausrichtungsprobing verbessert und die Intervention erleichtert. Anschließend erfasst der Misalignment-aware Adaptive Intervention (MAI)-Mechanismus umfassend das Ausmaß der Token-Ebene-Ausrichtungsabweichung sowohl aus der Token-Repräsentation als auch aus der Vorhersage, um die adaptive Anpassung der Bearbeitungsstärke zu leiten und somit die endgültige Ausrichtungsleistung zu verbessern. Umfangreiche Experimente an drei Ausrichtungsfähigkeiten belegen die Wirksamkeit von TAE, wobei die Methode insbesondere auf dem primären Metrik der Wahrhaftigkeit gegenüber der Baseline um 25,8 % übertrifft, und zwar mit minimalen zusätzlichen Kosten.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Token-orientierte Bearbeitung interner Aktivierungen zur Ausrichtung großer Sprachmodelle | Papers | HyperAI