Erste Schutzmaßnahme gegen mathematische Angriffe auf KI-Modelle entwickelt
Forscher von der North Carolina State University haben erstmals eine funktionierende Abwehr gegen kryptanalytische Angriffe auf künstliche Intelligenz vorgestellt, die darauf abzielen, die grundlegenden Modellparameter von neuronalen Netzen zu extrahieren. Diese Parameter sind entscheidend für das Verhalten eines KI-Systems und stellen wertvolles geistiges Eigentum dar. Bisher gab es keine wirksame Verteidigung gegen solche Angriffe, bei denen Angreifer durch Analyse von Eingaben und Ausgaben mathematisch die Parameter eines Modells rekonstruieren können. „Bislang waren diese Angriffe praktisch unvermeidbar – jetzt haben wir eine Lösung“, sagt Ashley Kurian, Doktorandin an der NC State und Erstautorin der Studie, die auf dem arXiv-Preprint-Server veröffentlicht wurde. Die Forscher identifizierten einen zentralen Schwachpunkt: Kryptanalytische Angriffe profitieren von Unterschieden zwischen Neuronen innerhalb derselben Schicht eines neuronalen Netzes. Je größer die Differenz zwischen den Neuronen, desto effektiver ist der Angriff. Die neue Verteidigungsstrategie nutzt diesen Umstand gezielt: Durch spezielles Training werden Neuronen innerhalb einer Schicht bewusst ähnlich gemacht – ein „Barrier of Similarity“. Dies erschwert die mathematische Analyse erheblich, da die Angriffe auf signifikante Unterschiede angewiesen sind. Die Methode kann auf einzelne oder alle Neuronen einer Schicht angewendet werden und ist flexibel einsetzbar. In Tests zeigte sich, dass die Leistungsfähigkeit der KI-Modelle nach Implementierung der Verteidigung praktisch unverändert blieb – die Genauigkeit änderte sich um weniger als 1 Prozent, in einigen Fällen sogar leicht positiv. Wichtiger: KI-Modelle, die mit dem Schutzmechanismus ausgestattet waren, widerstanden Angriffen, die zuvor innerhalb von vier Stunden erfolgreich waren. Bei erneuten Versuchen mit Tageslängen konnte die Parameterextraktion nicht mehr durchgeführt werden. Zusätzlich entwickelten die Forscher ein theoretisches Modell, das die Erfolgswahrscheinlichkeit kryptanalytischer Angriffe quantifizieren kann – ohne dass man die Angriffe selbst tagelang durchführen muss. Dies ermöglicht eine effiziente Abschätzung der Sicherheit bestehender KI-Systeme. „Sicherheit ist nicht nur technisch, sondern auch strategisch. Mit dieser Methode können Unternehmen bereits vor dem Angriff abschätzen, wie gut ihre Modelle geschützt sind“, sagt Aydin Aysu, korrespondierender Autor und Associate Professor an der NC State. Die Forscher betonen, dass Sicherheit ein ständiger Wettlauf ist. Obwohl die neue Methode wirksam ist, ist es unwahrscheinlich, dass sie dauerhaft unangreifbar bleibt. Dennoch sei die Entwicklung ein entscheidener Schritt, um KI-Systeme vor wirtschaftlichem Diebstahl zu schützen, insbesondere in der Industrie, wo große Sprachmodelle wie ChatGPT auf neuronalen Netzen basieren. Die Studie wird auf der NeurIPS 2025 in San Diego vorgestellt, und die Forscher sind offen für Kooperationen mit der Industrie. Industrielle Experten sehen die Arbeit als Meilenstein: „Die Einführung von Schutzmechanismen, die die Funktionalität nicht beeinträchtigen, ist entscheidend für die praktische Anwendung in der KI-Industrie“, sagt ein Sicherheitsexperte aus dem Bereich maschinelles Lernen. Die Methode könnte bald in Cloud-basierten KI-Plattformen, Edge-Computing und anderen sensiblen Anwendungen Einzug halten. Die Forschung unterstreicht zudem die Notwendigkeit weiterer Förderung, um den Sicherheitsfortschritt mit der Entwicklung von Angriffstechniken Schritt zu halten.
