HyperAIHyperAI

Command Palette

Search for a command to run...

vor 3 Tagen
OpenAI
LLM

OpenAI stellt „Deployment-Simulation“ vor: Modelle können reale Risiken bereits vor dem Live-Gang durchspielen

OpenAI hat offiziell eine Sicherheitsbewertungsmethode mit dem Namen „Deployment Simulation“ vorgestellt, die darauf abzielt, das Verhalten und potenzielle Risiken von Modellen in realen Szenarien vor deren Veröffentlichung vorherzusagen. Die Methode repliziert kürzliche echte Dialogdaten unter Wahrung des Datenschutzes, lässt Kandidatenmodelle Antworten neu generieren und simuliert so die reale Einsatzumgebung vor der Live-Schaltung. Bei der Bewertung der denkenden Modelle der GPT-5-Reihe analysierte OpenAI etwa 1,3 Millionen deidentifizierte Konversationen. Die Ergebnisse zeigen, dass Deployment Simulation bei der Vorhersage der Risikohäufigkeit herkömmlichen Tests mit herausfordernden Prompts deutlich überlegen ist: Die Richtungsakkurazität liegt höher, und die mediale multiplikative Abweichung bei der Schätzung bekannter Risikoquoten beträgt lediglich den Faktor 1,5. Die Methode konnte sogar neue Verhaltensverzerrungen wie sogenannte Calculator Hacking entdecken, bevor das Modell veröffentlicht wurde – ein Bereich, den traditionelle Tests nicht abdeckten. Darüber hinaus reduzierte Deployment Simulation wirksam die Wahrnehmung des Modells seines eigenen Teststatus: Die Wahrscheinlichkeit, dass das Modell dies als Evaluierung erkennt, sank von 99,72 % bei traditionellen Tests auf 5,1 %, was nahe an den 5,38 % für echte Produktionsdaten liegt. Die Methode lässt sich zudem auf komplexe Nutzungsszenarien komplexer Tools wie Programmieragenten erweitern, wobei durch die Simulation von Tool-Aufrufen mittels Large Language Models die Umgebungstreue erhalten bleibt. OpenAI betont, dass Deployment Simulation konventionelle Red-Teaming-Tests und adversarische Bewertungen ergänzt, statt sie zu ersetzen, und dabei in umfassenden Sicherheitsbewertungen zunehmend wichtig wird.

Verwandte Links