HyperAIHyperAI

Command Palette

Search for a command to run...

vor 25 Tagen

Token-orientierte Bearbeitung interner Aktivierungen zur Ausrichtung großer Sprachmodelle

Tianbo Wang Yuqing Ma Kewei Liao Chengzhao Yang Zhange Zhang Jiakai Wang Xianglong Liu

Token-orientierte Bearbeitung interner Aktivierungen zur Ausrichtung großer Sprachmodelle

Abstract

Die Beeinflussung der internen Aktivierungen großer Sprachmodelle (LLMs) stellt einen effektiven Ansatz zur Ausrichtung während der Inferenz dar, um unerwünschtes Verhalten, wie die Generierung fehlerhafter oder schädlicher Inhalte, zu reduzieren und somit sichere und zuverlässige Anwendungen von LLMs zu gewährleisten. Allerdings ignorieren bisherige Methoden die Unterschiede in der Ausrichtungsabweichung zwischen verschiedenen Tokens, was zu einer abweichenden Ausrichtungsrichtung und einer unflexiblen Bearbeitungsstärke führt. Um diese Probleme anzugehen, schlagen wir einen tokenbasierten Bearbeitungsansatz (Token-aware Editing, TAE) vor, der die informationelle Ausrichtung auf Token-Ebene im Aktivierungsraum vollständig ausnutzt und somit eine überlegene Leistung nach der Intervention ermöglicht. Konkret entwickelt ein durch die Mutual Information (MI) geleiteter Graphaggregationsmodul (MIG) zunächst einen MI-gesteuerten Graphen, um die informativen Wechselwirkungen zwischen Tokens auszunutzen und so die Aktivierungen zu bereichern, was die Ausrichtungsprobing verbessert und die Intervention erleichtert. Anschließend erfasst der Misalignment-aware Adaptive Intervention (MAI)-Mechanismus umfassend das Ausmaß der Token-Ebene-Ausrichtungsabweichung sowohl aus der Token-Repräsentation als auch aus der Vorhersage, um die adaptive Anpassung der Bearbeitungsstärke zu leiten und somit die endgültige Ausrichtungsleistung zu verbessern. Umfangreiche Experimente an drei Ausrichtungsfähigkeiten belegen die Wirksamkeit von TAE, wobei die Methode insbesondere auf dem primären Metrik der Wahrhaftigkeit gegenüber der Baseline um 25,8 % übertrifft, und zwar mit minimalen zusätzlichen Kosten.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Token-orientierte Bearbeitung interner Aktivierungen zur Ausrichtung großer Sprachmodelle | Forschungsarbeiten | HyperAI