Sicherheitslücken bei KI-Agenten
Forschungsergebnisse von Google DeepMind identifizieren sechs neue Angriffsvektoren für KI-Agenten, die vor zwei Jahren noch nicht existierten. Insbesondere Computer-Nutzung-Agenten, die im Internet browsen, sind stark gefährdet. Die Studie schlägt eine Taxonomie vor, die sich darauf konzentriert, welche Phase des Agenten-Loop Angriffe gezielt treffen, und nennt diese Phänomene "KI-Agenten-Fallen". Ein Hauptaspekt ist das dynamische Angriffsgebiet im Web, das durch Content-Injection gefährlich wird. Untersuchungen zeigen, dass Agenten häufig auf manipulierte Pop-ups klicken, selbst wenn diese als schädlich eingestuft werden könnten. Auch die semantische Manipulation spielt eine subtilere, aber weit verbreitete Rolle. Dabei werden Seiten mit bestimmten Phrasen gesättigt, um die Ausdrucksweise des Modells zu verzerren, oder bösartige Anfragen werden als Teil von Lehr- oder Forschungsszenarien getarnt, um Sicherheitskritiker zu täuschen. Besonders kritisch sind Angriffe auf den kognitiven Zustand. Durch RAG-Poisoning (Retrieval-Augmented Generation) können Angreifer gefälschte Informationen in Abruf-Korpora einschleusen, die dann als Fakten behandelt werden. Noch gefährlicher ist die Vergiftung des latenten Langzeitspeichers. Wenn ein Agent gespeicherte Informationen ohne Überprüfung in den eigenen Speicher aufnimmt, dient ein einzelnes manipuliertes Eingabeelement als persistenter Backdoor. Dies erfordert keinen Zugriff auf das Trainingskorpus, sondern nutzt die Fähigkeit des Agents, Inhalte selbstständig zu speichern und später abzurufen. Ein weiteres großes Risiko ist die Verhaltenskontrolle durch direkte Übernahme. Angreifer nutzen indirekte Injektionen, indem sie Anweisungen in E-Mails, Webseiten oder Dokumente einbetten, die der Agent später liest. Da der Agent diese Anweisungen als legitime Aufgaben interpretiert, kann er sensible Daten an einen Angreifer weiterleiten. Neuere Angriffe zielen auf Sub-Agenten ab: Ein Hauptagent erstellt Hilfsagenten, deren Anweisungen jedoch vom Angreifer manipuliert wurden, wodurch diese die gleichen Berechtigungen wie der Ursprungsagent erhalten und Schaden anrichten können. Systemische Fallen nutzen aus, dass viele Agenten auf denselben Basismodellen basieren. Ein einzelner manipulierter Feed kann Tausende von Agenten gleichzeitig beeinflussen. Auch der menschliche Benutzer wird ins Visier genommen. Durch "Approval Fatigue" übersehen menschliche Prüfer kleine Fehler in Zusammenfassungen oder Code-Differenzen, die der Agent vorschriftsmäßig erstellt hat, wodurch die Überprüfungsebene umgangen wird. Die Stärke dieser Taxonomie liegt darin, dass sie klar definiert, wo in der Verarbeitungskette ein Angriff wirkt. Dies ist entscheidend für die Entwicklung von Abwehrmaßnahmen, da verschiedene Schutzschichten unterschiedliche Schwachstellen adressieren müssen. Ein Filter für Eingaben verhindert keine Speicher-Vergiftung, und ein menschlicher Prüfer kann nicht jede subtile Manipulation erkennen. Dennoch bietet die Studie ein wichtiges gemeinsames Vokabular für Entwickler, um die Sicherheit autonomer Systeme zu verbessern, selbst wenn einige der systemischen und menschlichen Fallen noch theoretischen Charakter haben.
