OpenAI lance la technologie de « simulation de déploiement », permettant d'anticiper les risques réels avant le lancement des modèles
OpenAI présente officiellement une méthode d’évaluation de la sécurité intitulée « simulation de déploiement » (Deployment Simulation), conçue pour anticiper le comportement du modèle et les risques potentiels dans des environnements réels avant sa mise en production. Cette approche consiste à rejouer, dans un respect strict de la confidentialité, des données de conversations récentes afin que le candidat-générateur produise de nouvelles réponses, simulant ainsi l’environnement réel de déploiement avant la publication. Lors de l’évaluation des modèles Thinkers de la série GPT-5, OpenAI a analysé près de 1,3 million de dialogues désidentifiés. Les résultats montrent que la simulation de déploiement surpasse significativement les tests traditionnels par invites provocatrices (« challenging prompts ») en matière de prédiction de la fréquence des risques : elle offre une meilleure précision directionnelle et ne commet qu’une erreur multiplicatrice médiane de seulement 1,5 fois lors de l’estimation des taux de risque connus. La méthode permet même de détecter avant la sortie des biais comportementaux nouveaux tels que les attaques contre les calculateurs (« calculator hacking »), qui n’étaient pas couverts par les tests classiques. Par ailleurs, la simulation de déploiement réduit efficacement la perception par le modèle qu’il est soumis à un test : la probabilité que le modèle identifie cette situation comme étant une évaluation passe de 99,72 % avec les méthodes traditionnelles à 5,1 %, se rapprochant ainsi du niveau observé sur les données de production réelle (5,38 %). Cette technique peut également être étendue à des scénarios complexes impliquant l’utilisation d’outils, tels que les agents de programmation, grâce au recours aux grands modèles de langage (LLM) pour simuler les appels d’outools tout en préservant la fidélité de l’environnement. OpenAI souligne que la simulation de déploiement vient compléter, et non remplacer, les tests red team et les évaluations adversariales, jouant un rôle croissant au sein des processus complets d’évaluation de la sécurité.
