Command Palette
Search for a command to run...
Token-orientierte Bearbeitung interner Aktivierungen zur Ausrichtung großer Sprachmodelle
Tianbo Wang Yuqing Ma Kewei Liao Chengzhao Yang Zhange Zhang Jiakai Wang Xianglong Liu

Abstract
Die Beeinflussung der internen Aktivierungen großer Sprachmodelle (LLMs) stellt einen effektiven Ansatz zur Ausrichtung während der Inferenz dar, um unerwünschtes Verhalten, wie die Generierung fehlerhafter oder schädlicher Inhalte, zu reduzieren und somit sichere und zuverlässige Anwendungen von LLMs zu gewährleisten. Allerdings ignorieren bisherige Methoden die Unterschiede in der Ausrichtungsabweichung zwischen verschiedenen Tokens, was zu einer abweichenden Ausrichtungsrichtung und einer unflexiblen Bearbeitungsstärke führt. Um diese Probleme anzugehen, schlagen wir einen tokenbasierten Bearbeitungsansatz (Token-aware Editing, TAE) vor, der die informationelle Ausrichtung auf Token-Ebene im Aktivierungsraum vollständig ausnutzt und somit eine überlegene Leistung nach der Intervention ermöglicht. Konkret entwickelt ein durch die Mutual Information (MI) geleiteter Graphaggregationsmodul (MIG) zunächst einen MI-gesteuerten Graphen, um die informativen Wechselwirkungen zwischen Tokens auszunutzen und so die Aktivierungen zu bereichern, was die Ausrichtungsprobing verbessert und die Intervention erleichtert. Anschließend erfasst der Misalignment-aware Adaptive Intervention (MAI)-Mechanismus umfassend das Ausmaß der Token-Ebene-Ausrichtungsabweichung sowohl aus der Token-Repräsentation als auch aus der Vorhersage, um die adaptive Anpassung der Bearbeitungsstärke zu leiten und somit die endgültige Ausrichtungsleistung zu verbessern. Umfangreiche Experimente an drei Ausrichtungsfähigkeiten belegen die Wirksamkeit von TAE, wobei die Methode insbesondere auf dem primären Metrik der Wahrhaftigkeit gegenüber der Baseline um 25,8 % übertrifft, und zwar mit minimalen zusätzlichen Kosten.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.