HyperAIHyperAI

Command Palette

Search for a command to run...

CRISP: Persistente Konzeptvergessen durch sparse Autoencoder

Tomer Ashuach Dana Arad Aaron Mueller Martin Tutek Yonatan Belinkov

Zusammenfassung

Da große Sprachmodelle (Large Language Models, LLMs) zunehmend in realen Anwendungen eingesetzt werden, ist die Notwendigkeit, gezielt unerwünschtes Wissen zu entfernen, ohne die Funktionalität des Modells zu beeinträchtigen, von entscheidender Bedeutung geworden. Kürzlich untersuchte Ansätze haben sogenannte sparse autoencoders (SAEs) zur präzisen Intervention auf monosemantische Merkmale genutzt. Allerdings arbeiten die meisten SAE-basierten Methoden nur zur Inferenzzeit, wodurch keine dauerhaften Veränderungen an den Modellparametern entstehen. Solche Interventionen können von böswilligen Akteuren, die Zugriff auf die Parameter haben, umgangen oder rückgängig gemacht werden. Wir stellen CRISP vor, eine parameter-effiziente Methode zur dauerhaften Unlearning von Konzepten mittels SAEs. CRISP identifiziert automatisch relevante SAE-Merkmale über mehrere Schichten hinweg und unterdrückt deren Aktivierungen. Wir testen unsere Methode an zwei LLMs und zeigen, dass sie gegenüber vorherigen Ansätzen bei sicherheitskritischen Unlearning-Aufgaben aus dem WMDP-Benchmark überlegen ist: Schädliches Wissen wird erfolgreich entfernt, während allgemeine und domain-spezifische Fähigkeiten weitgehend erhalten bleiben. Eine merkmalsbasierte Analyse zeigt, dass CRISP eine semantisch kohärente Trennung zwischen Zielkonzepten und harmlosen Konzepten erreicht, was eine präzise Unterdrückung der Zielmerkmale ermöglicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
CRISP: Persistente Konzeptvergessen durch sparse Autoencoder | Paper | HyperAI