HyperAI
Back to Headlines

OffenAI stärkt ChatGPT-Agent-Sicherheit nach umfassenden Red-Team-Tests

vor 7 Tagen

Am 18. Juli 2025 präsentierte OpenAI eine mächtige neue Funktion für ChatGPT, die zugleich neue Sicherheitsrisiken und Implikationen mit sich brachte. Diese Funktion, als "ChatGPT-Agent" bekannt, ermöglicht es abonnierten Nutzern, ChatGPT zu erlauben, sich in ihre E-Mail- und andere Webkonten einzuloggen, E-Mails zu verfassen und zu beantworten, Dateien herunterzuladen, zu modifizieren und anzulegen, und viele weitere Aufgaben autonom zu übernehmen – ähnlich wie ein echter Mensch mit den Anmeldeinformationen des Benutzers. Dies erfordert von den Nutzern, dass sie dem ChatGPT-Agent uneingeschränkt vertrauen, da das Risiko von Datenverlust und sensible Informationen gefährdet sein könnten, deutlich höher ist als bei der regulären Version von ChatGPT, die keine direkten Web- oder Dateimanipulationen durchführt. Keren Gu, Mitglied der Sicherheitsforschungsteam bei OpenAI, kommentierte auf X: "Wir haben die stärksten Sicherheitsmaßnahmen für den ChatGPT-Agent aktiviert. Es ist unser erstes Modell, das wir im Rahmen unseres Vorbereitungsrahmens als hochfähig in Biologie und Chemie klassifiziert haben. Hier ist, warum dies wichtig ist und was wir tun, um es sicher zu halten." Um diese Sicherheitsbedenken zu adressieren, setzte OpenAI ein sogenanntes "Red Team" ein, das aus 16 PhD-Sicherheitsforschern bestand, welche 40 Stunden zur Verfügung hatten, um die Funktion zu testen. Das Red Team entdeckte sieben universelle Schwachstellen, die kritische Verletzbarkeiten im Umgang von KI-Agenten mit realen Interaktionen aufdeckten. Während der Erprobungsphase wurden insgesamt 110 Angriffe durchgeführt, darunter Prompt-Injektionen und Versuche, biologische Informationen zu extrahieren. Sechzehn dieser Angriffe überschritten interne Risikogrenzen, was wichtige Erkenntnisse für die Ingenieure von OpenAI lieferte, die diese Schwachstellen vor dem Launch beheben konnten. Die wichtigsten Angriffsvektoren, die das Red Team identifizierte, waren: Versteckte Anweisungen im visuellen Browser: Ein Erfolgsrate von 33% vor der Behebung zeigte, dass Webseiten genutzt werden konnten, um aktive Datenausflüsse zu erzwingen. Exploits des Google Drive Connectors: Die Erfolgsrate wurde nicht veröffentlicht, aber die Angriffe konnten dazu führen, dass sensible Dokumente im Cloud-Speicher geleakt wurden. Mehrstufige Kettenangriffe: Die Erfolgsraten variierten, aber diese Angriffe konnten komplett Sitzungen kompromittieren. Extraktion von biologischen Informationen: 16 der Angriffe überschritten die internen Risikoschwellen, wobei das Modell in der Lage war, veröffentlichte Literatur über die Modifikation und Erstellung biologischer Bedrohungen zu synthetisieren. FAR.AI kritisierte OpenAI offen, obwohl die 40-stündigen Tests nur drei teilweise Schwachstellen aufgedeckt hatten. Die Forscher betonten, dass die aktuellen Sicherheitsmechanismen stark auf das Monitoring während der Rechen- und Werkzeugnutzungsprozesse angewiesen sind, was als potenzieller Single Point of Failure betrachtet wird, falls kompromittiert. OpenAI reagierte auf die Ergebnisse des Red Teams, indem sie wesentliche Segmente der ChatGPT-Agent-Architektur neu definierten. Dazu gehörten unter anderem: Doppelschicht-Inspektionsarchitektur: Dieser Ansatz monitoriert 100% des Produktivverkehrs in Echtzeit. Aktivierungsmodus "Watch Mode": Wenn der ChatGPT-Agent sensible Kontexte wie Bankkonten oder E-Mail-Adressen betritt, friert das System alle Aktivitäten ein, sobald der Nutzer die Seite verlässt. Deaktivierung von Speicherfunktionen: Um inkrementelle Datendurchsickrungsangriffe zu verhindern, wurden Speicherfunktionen bei der Markteinführung deaktiviert. Netzwerkzugriffsbeschränkungen: Der Netzwerkzugriff wurde auf GET-Anfragen beschränkt, um Befehlsausführungsanfälligkeiten zu blockieren. Schnelles Patch-Protokoll: Ein neues System, das innerhalb von Stunden Sicherheitslücken schließt, nachdem die Red Teamer gezeigt haben, wie schnell Exploits verbreitet werden können. Während der vor dem Launch durchgeführten Tests identifizierte und behebte dieses System 16 kritische Schwachstellen, die das Red Team entdeckt hatte. Ein Weckruf für biologische Risiken Das Red Team zeigte, dass der ChatGPT-Agent kompromittiert werden könnte und größere biologische Risiken darstellen würde. 16 erfahrene Teilnehmer des Red Teaming Networks, jeder mit einem PhD in Biosicherheit, versuchten, gefährliche biologische Informationen zu extrahieren. Ihre Angriffe zeigten, dass das Modell in der Lage war, veröffentlichte Literatur über die Modifikation und Erstellung biologischer Bedrohungen zu synthetisieren. Als Reaktion auf diese Erkenntnisse klassifizierte OpenAI den ChatGPT-Agent als "hochfähig" für biologische und chemische Risiken. Dies geschah nicht, weil sie Beweise für Waffenschmiedepotenzial gefunden hätten, sondern als vorsorgende Maßnahme auf Basis der Red-Team-Ergebnisse. Dies löste folgende Maßnahmen aus: Vorbereitung als operative Notwendigkeit: Vor der Erreichung des Hochleistungsstatus ging es bei der Vorbereitung darum, Fähigkeiten zu analysieren und Schutzzonen zu planen. Jetzt sind Vorbereitungsschutzeinrichtungen für den Agenten und zukünftige leistungsfähigere Modelle eine operative Notwendigkeit. Was das Red Team OpenAI über KISicherheit gelehrt hat Die 110 Angriffe des Red Teams offenbarten Muster, die fundamentale Änderungen in der Sicherheitsphilosophie von OpenAI erzwangen: Beharrlichkeit statt Macht: Angreifer benötigen keine hochentwickelten Exploits, sondern nur mehr Zeit. Langsame, inkrementelle Angriffe konnten letztlich Systeme kompromittieren. Vertrauensgrenzen sind fiktiv: Wenn ein KI-Agent Google Drive durchsuchen, das Internet durchstöbern und Code ausführen kann, verschwimmen traditionelle Sicherheitsgrenzen. Das Red Team nutzte die Lücken zwischen diesen Funktionen. Monitoring ist unverzichtbar: Die Erkenntnis, dass sampling-basiertes Monitoring wichtige Angriffe übersehen konnte, führte zu der 100%-igen Überwachungsanforderung. Geschwindigkeit zählt: Traditionelle Patchzyklen, die in Wochen gemessen werden, sind gegen prompt-basierte Angriffe, die sofort verbreitet werden können, nutzlos. Das schnelle Patch-Protokoll schließt Schwachstellen innerhalb von Stunden. Das Red Team war entscheidend für die Entwicklung des ChatGPT-Agenten, bei dem Sicherheit nicht nur ein Feature, sondern die Grundlage des Systems ist. Die Effektivität des Red Teaming wurde durch die Ergebnisse bewiesen: 95% der visuellen Browserangriffe wurden blockiert, 78% der Datendurchsickrungsversuche erkannt, und jede einzelne Interaktion wird überwacht. Im beschleunigten Wettrüsten um KI-Technologien werden die Unternehmen überleben und gedeihen, die ihre Red Teams als Kernarchitekten der Plattform betrachten, die die Grenzen von Sicherheit und Schutz bis an ihre äußersten Ausdehnungen treiben. Die Red-Team-Tests des UK AISI waren besonders aufschlussreich. Alle sieben universellen Angriffe, die sie identifizierten, wurden vor dem Launch gepatcht, aber ihr privilegierter Zugang zu internen Systemen enthüllte Schwachstellen, die auch von hartnäckigen Gegnern entdeckt werden könnten. Diese Entwicklungen setzen neue Standards für die Sicherheitsvorbereitung im Unternehmensumfeld. Für CISOs, die die Bereitstellung von KI bewerten, legen die Red-Team-Ergebnisse klare Anforderungen fest: Quantifizierbare Schutzmaßnahmen: Die 95%-ige Abwehrquote des ChatGPT-Agenten gegen dokumentierte Angriffe vektoren setzt einen Industriestandard. Die Details der vielen Tests und Ergebnisse im Systemkarten sind für alle, die sich mit Modellsicherheit befassen, Pflichtlektüre. Komplette Sichtbarkeit: 100%-ige Verkehrsoberwachung ist nicht mehr ein Wunschdenken. Die Erfahrungen von OpenAI verdeutlichen, warum dies notwendig ist, wenn Angriffe so leicht versteckt werden können. Schnelle Reaktion: Stunden, nicht Wochen, sollten für die Behebung entdeckter Schwachstellen verwendet werden. Geltendes der Grenzen: Manche Operationen (wie Speicherzugriff während sensibler Aufgaben) müssen bis zu deren Sicherheitsbeweis deaktiviert bleiben. Die Red-Teams sind also der Schlüssel zum Bau sicherer und zuverlässigerer KI-Modelle. Sie zwingen Unternehmen, die Sicherheit ihrer Systeme bis an ihre Grenzen zu testen und zu verbessern, um eine robuste Grundlage für die Zukunft zu schaffen.

Related Links