HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten
LLM
Generative KI

KI-Modelle: Editierungen können sensible Daten preisgeben

Große Sprachmodelle (LLMs) werden weltweit intensiv genutzt, um Informationen zu suchen oder komplexe Aufgaben effizienter zu bearbeiten. Diese Systeme sind auf riesigen Textkorpora trainiert und speichern daher oft sensible Daten, die unbeabsichtigt erhalten bleiben können. Um Fehler zu beheben oder unerwünschte Inhalte zu entfernen, setzen Forscher häufig sogenannte „Model-Editing“-Methoden ein, insbesondere den „Locate-then-edit“-Ansatz, der gezielt Parameter innerhalb des Modells anpasst, ohne das gesamte Modell neu zu trainieren. Doch eine neue Studie von Wissenschaftlern des Shanghai Qi Zhi Instituts, der East China Normal University, der Tsinghua University und der Chinesischen Akademie der Wissenschaften offenbart nun eine gravierende Sicherheitslücke: Diese Parameteränderungen hinterlassen sogenannte „Update-Fingerprints“, die von Angreifern ausgenutzt werden können, um ursprünglich gelöschte oder korrigierte sensible Daten zurückzugewinnen. Die Forscher entwickelten einen zweistufigen Angriff namens KSTER (KeySpace Reconstruction-then-Entropy Reduction), der auf der niedrigen Rangstruktur der Parameterupdates basiert. In der ersten Phase nutzen sie spektrale Analyse, um die Zeilenräume der Update-Matrizen zu untersuchen – diese enthalten eine Art „Fingerabdruck“ der bearbeiteten Inhalte. In der zweiten Phase wenden sie eine entropiebasierte Prompt-Rekonstruktion an, um den semantischen Kontext der ursprünglichen Eingabe zu rekonstruieren. In umfangreichen Tests konnten sie erfolgreich sensible Daten aus Modellen wie GPT-J, Llama-3 und Qwen-2.5 zurückgewinnen, selbst wenn diese ursprünglich gelöscht oder korrigiert worden waren. Um diese Bedrohung zu bekämpfen, schlagen die Autoren eine neue Verteidigungsstrategie vor: „Subspace Camouflage“. Dabei werden künstliche, semantisch plausible „Täuschungsdaten“ in den Update-Prozess integriert, um den echten Fingerabdruck der ursprünglichen Daten zu verschleiern. Diese Methode stört die Angriffsmöglichkeiten erheblich, ohne die Funktionalität des Editierprozesses zu beeinträchtigen. Die Implementierung des Angriffs und der Verteidigung ist auf GitHub verfügbar, was die weitere Forschung und Bewertung durch die Community fördert. Experten sehen in dieser Studie einen wichtigen Meilenstein für die Sicherheit von KI-Systemen. „Dies zeigt, dass selbst scheinbar sichere, punktuelle Korrekturen in LLMs potenziell als Hintertür für Datenlecks dienen können“, sagt ein Experte für maschinelles Lernen an einer europäischen Hochschule. „Die Vorschläge für Subspace Camouflage sind vielversprechend und könnten in zukünftige Sicherheitsstandards integriert werden.“ Die beteiligten Institutionen sind führend in der KI-Forschung in China, und ihre Arbeiten tragen maßgeblich zur globalen Diskussion über verantwortungsvolle KI bei. Die Ergebnisse unterstreichen, dass die Sicherheit von LLMs nicht nur durch Robustheit gegenüber Fehlern, sondern auch durch Schutz vor latenten Datenlecks gewährleistet werden muss.

Verwandte Links

KI-Modelle: Editierungen können sensible Daten preisgeben | Aktuelle Beiträge | HyperAI