HyperAIHyperAI

Command Palette

Search for a command to run...

Wissensunlernen zur Minderung von Datenschutzrisiken in Sprachmodellen

Joel Jang Dongkeun Yoon Sohee Yang Sungmin Cha Moontae Lee Lajanugen Logeswaran Minjoon Seo

Zusammenfassung

Vortrainierte Sprachmodelle (LMs) speichern während der initialen Vortrainingsphase eine enorme Menge an Wissen, darunter Informationen, die das Privatleben und die Identität einzelner Personen verletzen können. Bisherige Ansätze zur Bewältigung von Datenschutzproblemen bei Sprachmodellen haben sich hauptsächlich auf Datenaufbereitung und Methoden der differenziellen Privatsphäre konzentriert, wobei beide Ansätze eine erneute Trainingsphase des zugrundeliegenden LMs erfordern. Wir schlagen als Alternative die Methode des Wissensvergessens (knowledge unlearning) vor, um Datenschutzrisiken für LMs nachträglich zu verringern. Wir zeigen, dass eine einfache Steigerung des Gradienten entlang bestimmter Token-Sequenzen effektiv ist, um diese Informationen zu vergessen, wobei sich die allgemeine Leistungsfähigkeit der Sprachmodellierung bei größeren LMs praktisch nicht verschlechtert – und in einigen Fällen sogar durch wenige Iterationen signifikant verbessert wird. Zudem stellen wir fest, dass sequenzielles Verlernen effektiver ist als das Versuch, alle Daten gleichzeitig zu vergessen, und dass das Verlernen stark von der Art der zu vergessenden Daten (Domäne) abhängt. Durch Vergleiche mit einem vorherigen Ansatz der Datenaufbereitung sowie einer Dekodiermethode, die bekanntermaßen Datenschutzrisiken bei LMs reduzieren kann, zeigen wir, dass das Verlernen in Szenarien, in denen bestimmte Daten, die anfällig für Extraktionsangriffe sind, bereits im Voraus bekannt sind, eine stärkere empirische Datenschutzgarantie bietet – und gleichzeitig deutlich effizienter und robuster ist. Wir stellen den Code und die benötigten Datensätze zur Reproduktion unserer Ergebnisse unter https://github.com/joeljang/knowledge-unlearning zur Verfügung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Wissensunlernen zur Minderung von Datenschutzrisiken in Sprachmodellen | Paper | HyperAI