HyperAIHyperAI
Back to Headlines

AI-Modelle können durch wenige manipulierte Dokumente Backdoors erhalten

vor 4 Tagen

Eine neue Studie von Anthropic zeigt, dass künstliche Intelligenz-Modelle, selbst große Sprachmodelle, mit Hintertüren verseucht werden können, indem nur wenige manipulierte Dokumente im Trainingsdatensatz enthalten sind. Die Forschung unterstreicht, dass sogenannte „Poisoning-Attacken“ – bei denen Angreifer gezielt fehlerhafte oder schädliche Daten in den Trainingsprozess einfügen, um das Modell zu manipulieren – nicht notwendigerweise mit der Größe des Modells ansteigen. Im Gegenteil: Selbst kleinere Modelle können mit minimalen Angriffsressourcen erfolgreich beeinflusst werden, was die Sicherheit von AI-Systemen in der Praxis erheblich in Frage stellt. Die Forscher von Anthropic testeten verschiedene Modelle unterschiedlicher Größe, von mittelgroßen bis hin zu sehr großen Sprachmodellen, und fügten jeweils nur zwischen 10 und 50 manipulierte Dokumente in die Trainingsdaten ein. Diese Dokumente enthielten versteckte Trigger – beispielsweise bestimmte Wörter oder Satzstrukturen – die bei der Abfrage zu vorherbestimmten, schädlichen Ausgaben führen sollten. Die Ergebnisse waren alarmierend: Selbst bei Modellen mit über 100 Milliarden Parametern gelang es den Angreifern, funktionierende Hintertüren zu etablieren, die später aktiviert werden konnten, ohne dass das Modell im Allgemeinen auffällig wurde. Ein zentrales Ergebnis der Studie ist, dass die Effektivität solcher Angriffe nicht proportional zur Modellgröße steigt. Das bedeutet, dass große, anscheinend robuste Modelle nicht automatisch sicherer sind. Vielmehr offenbart die Forschung eine systemische Schwäche: Selbst wenn nur ein winziger Anteil der Trainingsdaten manipuliert wird, kann das gesamte Verhalten des Modells gezielt beeinflusst werden. Dies stellt eine erhebliche Herausforderung für die Sicherheit von KI-Systemen dar, insbesondere in kritischen Anwendungsbereichen wie medizinischer Diagnostik, Finanzdienstleistungen oder Sicherheitsüberwachung. Die Studie wirft auch die Frage auf, wie man solche Angriffe erkennen und verhindern kann. Aktuelle Prüfverfahren für Trainingsdaten sind oft nicht ausreichend, um solche subtilen Manipulationen zu entdecken. Die Forscher betonen daher die Notwendigkeit neuer Sicherheitsmaßnahmen, wie etwa verbesserte Datenvalidierung, Anomalieerkennung in Trainingsdaten und die Entwicklung von Modellen, die widerstandsfähiger gegenüber Poisoning-Angriffen sind. Branchenexperten sehen in der Studie eine wichtige Warnung für die KI-Entwicklung. „Die Tatsache, dass nur wenige gefährliche Dokumente ausreichen, um ein großes Modell zu kompromittieren, zeigt, dass Sicherheit nicht nur eine Frage der Modellgröße ist, sondern der Qualität und Integrität der Daten“, sagt ein KI-Sicherheitsexperte von einem führenden Technologieunternehmen. „Unternehmen, die KI-Systeme kommerziell einsetzen, müssen dringend Investitionen in Datensicherheit und -transparenz tätigen.“ Anthropic selbst betont, dass die Studie nicht als Nachweis für aktuelle Sicherheitslücken, sondern als Warnsignal dienen soll. Die Firma arbeitet bereits an Methoden zur Erkennung und Abwehr solcher Angriffe und ruft die gesamte KI-Community auf, die Sicherheit von Trainingsdaten stärker in den Fokus zu rücken. Die Ergebnisse unterstreichen, dass die Zukunft der KI-Sicherheit nicht allein in leistungsfähigeren Modellen, sondern in verantwortungsvoller Datennutzung und robusten Schutzmechanismen liegt.

Related Links