CRISP: Persistente Konzeptvergessen durch sparse Autoencoder

Da große Sprachmodelle (Large Language Models, LLMs) zunehmend in realen Anwendungen eingesetzt werden, ist die Notwendigkeit, gezielt unerwünschtes Wissen zu entfernen, ohne die Funktionalität des Modells zu beeinträchtigen, von entscheidender Bedeutung geworden. Kürzlich untersuchte Ansätze haben sogenannte sparse autoencoders (SAEs) zur präzisen Intervention auf monosemantische Merkmale genutzt. Allerdings arbeiten die meisten SAE-basierten Methoden nur zur Inferenzzeit, wodurch keine dauerhaften Veränderungen an den Modellparametern entstehen. Solche Interventionen können von böswilligen Akteuren, die Zugriff auf die Parameter haben, umgangen oder rückgängig gemacht werden. Wir stellen CRISP vor, eine parameter-effiziente Methode zur dauerhaften Unlearning von Konzepten mittels SAEs. CRISP identifiziert automatisch relevante SAE-Merkmale über mehrere Schichten hinweg und unterdrückt deren Aktivierungen. Wir testen unsere Methode an zwei LLMs und zeigen, dass sie gegenüber vorherigen Ansätzen bei sicherheitskritischen Unlearning-Aufgaben aus dem WMDP-Benchmark überlegen ist: Schädliches Wissen wird erfolgreich entfernt, während allgemeine und domain-spezifische Fähigkeiten weitgehend erhalten bleiben. Eine merkmalsbasierte Analyse zeigt, dass CRISP eine semantisch kohärente Trennung zwischen Zielkonzepten und harmlosen Konzepten erreicht, was eine präzise Unterdrückung der Zielmerkmale ermöglicht.