vor 25 Tagen

Token-orientierte Bearbeitung interner Aktivierungen zur Ausrichtung großer Sprachmodelle

Tianbo Wang Yuqing Ma Kewei Liao Chengzhao Yang Zhange Zhang Jiakai Wang Xianglong Liu

Abstract

Die Beeinflussung der internen Aktivierungen großer Sprachmodelle (LLMs) stellt einen effektiven Ansatz zur Ausrichtung während der Inferenz dar, um unerwünschtes Verhalten, wie die Generierung fehlerhafter oder schädlicher Inhalte, zu reduzieren und somit sichere und zuverlässige Anwendungen von LLMs zu gewährleisten. Allerdings ignorieren bisherige Methoden die Unterschiede in der Ausrichtungsabweichung zwischen verschiedenen Tokens, was zu einer abweichenden Ausrichtungsrichtung und einer unflexiblen Bearbeitungsstärke führt. Um diese Probleme anzugehen, schlagen wir einen tokenbasierten Bearbeitungsansatz (Token-aware Editing, TAE) vor, der die informationelle Ausrichtung auf Token-Ebene im Aktivierungsraum vollständig ausnutzt und somit eine überlegene Leistung nach der Intervention ermöglicht. Konkret entwickelt ein durch die Mutual Information (MI) geleiteter Graphaggregationsmodul (MIG) zunächst einen MI-gesteuerten Graphen, um die informativen Wechselwirkungen zwischen Tokens auszunutzen und so die Aktivierungen zu bereichern, was die Ausrichtungsprobing verbessert und die Intervention erleichtert. Anschließend erfasst der Misalignment-aware Adaptive Intervention (MAI)-Mechanismus umfassend das Ausmaß der Token-Ebene-Ausrichtungsabweichung sowohl aus der Token-Repräsentation als auch aus der Vorhersage, um die adaptive Anpassung der Bearbeitungsstärke zu leiten und somit die endgültige Ausrichtungsleistung zu verbessern. Umfangreiche Experimente an drei Ausrichtungsfähigkeiten belegen die Wirksamkeit von TAE, wobei die Methode insbesondere auf dem primären Metrik der Wahrhaftigkeit gegenüber der Baseline um 25,8 % übertrifft, und zwar mit minimalen zusätzlichen Kosten.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Token-orientierte Bearbeitung interner Aktivierungen zur Ausrichtung großer Sprachmodelle

Tianbo Wang Yuqing Ma Kewei Liao Chengzhao Yang Zhange Zhang Jiakai Wang Xianglong Liu

Abstract

KI mit KI entwickeln

Hyper Newsletters