HyperAIHyperAI

Command Palette

Search for a command to run...

KI-Modelle können Daten jetzt vergessen – auch ohne Originaldaten

Ein Team von Informatikwissenschaftlern der University of California, Riverside (UCR) hat eine neue Methode entwickelt, mit der künstliche Intelligenz (KI) Modelle private und urheberrechtlich geschützte Daten vergessen können – ohne Zugriff auf die ursprünglichen Trainingsdaten. Die Technologie, die im Juli auf der International Conference on Machine Learning in Vancouver vorgestellt und auf dem arXiv-Preprint-Server veröffentlicht wurde, adressiert ein wachsendes globales Problem: Die unerwünschte Speicherung sensibler oder urheberrechtlich geschützter Inhalte in KI-Modellen, die oft aus Web-Inhalten gelernt wurden und trotz Schutzmaßnahmen wie Paywalls oder Passwörtern abgerufen werden können. Die Forschenden um den Doktoranden Ümit Yiğit Başaran, Professor Amit Roy-Chowdhury und Assistentprofessorin Başak Güler entwickelten ein sogenanntes „source-free certified unlearning“-Verfahren. Es ermöglicht die gezielte Löschung von Daten, indem ein statistisch ähnlicher Ersatzdatensatz – ein „Surrogat“ – verwendet wird, um das Modell neu zu justieren. Durch gezielte Anpassung der Modellparameter und die Einfügung kalibrierter Zufallsrauschen wird sichergestellt, dass die gewünschten Informationen nicht mehr rekonstruiert werden können. Ein zentrales Merkmal der Methode ist ihre Effizienz: Im Gegensatz zur vollständigen Neuausbildung des Modells, die extrem rechenintensiv und energieaufwändig ist, erreicht das Verfahren vergleichbare Datenschutzgarantien mit deutlich geringerem Aufwand. Die Forscher testeten ihre Technik an synthetischen und realen Datensätzen und konnten zeigen, dass sie nahezu die gleichen Sicherheitsniveaus wie eine vollständige Neutraining erreicht, aber mit einem Bruchteil der Ressourcen. Die Anwendung ist besonders relevant in Zeiten strenger Datenschutzgesetze wie der EU-DSGVO oder dem kalifornischen Consumer Privacy Act. Auch der Rechtsstreit zwischen The New York Times und OpenAI sowie Microsoft zeigt, wie dringend Lösungen für die urheberrechtliche Nutzung von Inhalten zur KI-Trainingszwecken benötigt werden. KI-Modelle wie GPT lernen Muster aus riesigen Textmengen und können gelegentlich nahezu wörtliche Wiedergaben von Artikeln erzeugen, was Nutzern die Möglichkeit bietet, geschützte Inhalte ohne Bezahlung zu erhalten. Die Methode ist derzeit auf einfachere Modelle anwendbar, die jedoch weiterhin weit verbreitet sind. Laut Roy-Chowdhury, Co-Direktor des RAISE-Instituts an der UCR, könnte sie in Zukunft auch auf komplexe Systeme wie ChatGPT übertragen werden. Die Technologie könnte Medienorganisationen, Krankenhäuser und andere Institutionen helfen, sensible Daten aus KI-Systemen zu entfernen, und Bürgern mehr Kontrolle über ihre persönlichen Informationen geben. Die Forschung wird weiter ausgebaut: Ziel ist es, das Verfahren für komplexere Modelle und Datensätze anwendbar zu machen und Werkzeuge für Entwickler weltweit zu schaffen. Die Arbeit trägt zur Schaffung verlässlicher, nachweisbarer und praktikabler Lösungen für das „Recht auf Vergessen“ in der KI-Ära bei. Industrieexperten sehen in der Methode einen bedeutenden Schritt hin zu ethischer KI. „Dies ist eine der ersten Lösungen, die nicht nur theoretisch, sondern praktisch und beweisbar funktioniert“, sagt ein KI-Experte aus dem Silicon Valley. Die UCR-Forschung wird als wegweisend für regulatorische Compliance und ethische KI-Entwicklung angesehen, besonders in Zeiten zunehmender Aufsicht über digitale Inhalte.

Verwandte Links

KI-Modelle können Daten jetzt vergessen – auch ohne Originaldaten | Aktuelle Beiträge | HyperAI