LLM-Sicherheit: Risiken und Schutzmaßnahmen von NVIDIA
Die NVIDIA AI Red Team (AIRT) hat in den vergangenen Jahren zahlreiche KI-Systeme mit großen Sprachmodellen (LLMs) auf Sicherheitslücken untersucht und dabei mehrere häufige und kritische Schwachstellen identifiziert, die bereits in der Entwicklungsphase behoben werden können. Die drei zentralen Risiken betreffen die Ausführung von LLM-generiertem Code, unsichere Zugriffssteuerung in Retrieval-augmented Generation (RAG)-Systemen sowie die Darstellung aktiver Inhalte wie Markdown oder Hyperlinks, die zu Datenexfiltration führen können. Erstens stellt die Ausführung von LLM-generiertem Code – beispielsweise mittels exec oder eval – eine erhebliche Gefahr dar. Angreifer nutzen Prompt-Injektion, um den LLM dazu zu bringen, schadhaften Code zu erzeugen, der dann ohne ausreichende Isolation ausgeführt wird. Dies kann zu Remote Code Execution (RCE) führen, wodurch Angreifer Zugriff auf das gesamte System erlangen. Selbst wenn solche Funktionen tief in Bibliotheken eingebettet sind, können Angriffe durch mehrschichtige Evasion und Verschleierung umgangen werden. Die Empfehlung lautet: Vermeide exec und eval komplett. Stattdessen sollte die Absicht des LLM-Ausgangs analysiert und auf vordefinierte, sichere Funktionen abgebildet werden. Bei unvermeidbarer dynamischer Codeausführung ist ein isolierter Sandbox-Umfeld, etwa mittels WebAssembly, unerlässlich. Zweitens zeigen RAG-Systeme häufig unsichere Zugriffssteuerung. Oft werden Dokumente aus Quellen wie Confluence oder Google Workspace in die RAG-Datenbank übernommen, ohne dass die ursprünglichen Berechtigungen korrekt übernommen oder aktuell gehalten werden. Ein überberechtigter Zugriffstoken oder Verzögerungen bei der Berechtigungsaktualisierung führen zu Datenlecks. Zudem ermöglicht zuweilen uneingeschränkter Schreibzugriff auf die RAG-Datenbank, dass Angreifer sensible Inhalte wie E-Mails in das Retrieval-System einschleusen können – ein Weg zur indirekten Prompt-Injektion. Lösungen umfassen die Trennung von Datenquellen (z. B. nur eigene E-Mails oder Organisationsdokumente), die Einführung von Content Security Policies (CSP), die Anwendung von Guardrails zur Prüfung der Themenrelevanz und die Bereitstellung autoritativer, streng kontrollierter Datenquellen. Drittens ist die Darstellung von LLM-Ausgaben in aktiven Formaten wie Markdown oder HTML weiterhin ein großes Risiko. Angreifer können Bilder oder Links mit eingebetteten Daten in die Antwort einfügen, die beim Laden vom Browser an einen fremden Server gesendet werden – eine Form der Datenexfiltration. So kann z. B. eine URL mit codierten Gesprächsinhalten den Angreifer über sensible Informationen informieren. Um dies zu verhindern, sollten nur bestimmte, sichere Domains für Bilder erlaubt sein, Links sollten vollständig sichtbar gemacht oder deaktiviert werden, und LLM-Ausgaben müssen grundsätzlich auf schädliche Inhalte wie URLs, HTML oder Markdown gesichtet und bereinigt werden. Als letzte Maßnahme kann die Aktivität solcher Inhalte in der Benutzeroberfläche komplett deaktiviert werden. Insgesamt zeigt die AIRT, dass viele Sicherheitslücken durch einfache, aber konsistente Maßnahmen verhindert werden können. Die Berücksichtigung dieser Empfehlungen ist entscheidend, um LLM-basierte Anwendungen vor den häufigsten und gefährlichsten Angriffen zu schützen. Branchenexperten betonen, dass die Sicherheit von LLM-Anwendungen oft unterschätzt wird, obwohl sie bereits in Produktionsumgebungen eingesetzt werden. Die NVIDIA AI Red Team gilt als führend in der proaktiven Identifikation von KI-Sicherheitslücken. Ihr Ansatz, Sicherheit in den Entwicklungsprozess zu integrieren, wird zunehmend als Best Practice angesehen. NVIDIA bietet darüber hinaus Schulungen wie „Exploring Adversarial Machine Learning“ im NVIDIA DLI an, um Entwickler in der Erkennung und Abwehr solcher Bedrohungen zu unterstützen.