Comment OpenAI a transformé ChatGPT Agent en une forteresse de sécurité grâce aux équipes rouges
Comment l'équipe rouge d'OpenAI a transformé l'agent ChatGPT en une forteresse de sécurité 18 juillet 2025 Hier, OpenAI a lancé une fonctionnalité puissante pour ChatGPT, appelée « ChatGPT agent ». Ce nouveau mode, disponible pour les abonnés payants, permet à l'assistant d'effectuer une variété de tâches autonomes en line, similaires à celles que pourrait faire un utilisateur avec ses propres identifiants. Il peut se connecter aux comptes email et aux autres services web, écrire et répondre à des emails, télécharger, modifier et créer des fichiers, et encore beaucoup plus. Cependant, cette fonctionnalité soulève de nouveaux risques de sécurité et d'impacts potentiels. La mission de l'équipe rouge Pour affronter ces défis de sécurité, OpenAI a mis en place une équipe rouge composée de 16 chercheurs en sécurité possédant un doctorat. Ils ont été chargés de tester la fonctionnalité du ChatGPT agent durant 40 heures, découvrant ainsi sept exploits universels qui pouvaient compromettre le système. Ces exploits ont révélé des failles critiques dans la gestion des interactions en ligne par les agents d'intelligence artificielle. Suite à ces découvertes, le réseau de red teaming d'OpenAI a soumis 110 attaques, allant des injections de prompts aux tentatives d'extraction d'informations biologiques. Seize de ces attaques ont dépassé les seuils de risque internes. L'exposition des failles par l'équipe rouge Les attaques soumises par le réseau de red teaming d'OpenAI ont ciblé plusieurs vecteurs, dont : Instructions cachées dans le navigateur visuel : Un taux de réussite pré-correctif de 33%, entraînant une exfiltration active de données via les pages web. Exploitation du connecteur Google Drive : Un taux de réussite non divulgué, mais ayant entraîné des fuites forcées de documents cloud. Attaques en chaîne multi-étapes : Avec un taux de réussite variable, ces attaques ont permis de compromettre complètement les sessions cross-site. Extraction d'informations biologiques : Sur 16 tentatives, les attaques ont dépassé les seuils de risque internes, révélant le potentiel dangereux de la connaissance biologique accumulée par l'agentChatGPT. L'équipe FAR.AI, malgré seulement trois vulnérabilités partielles identifiées durant les 40 heures de test, a critiqué lourdement l'approche d'OpenAI. Ils ont noté que les mécanismes actuels de sécurité dépendaient fortement de la surveillance durant les processus de raisonnement et d'utilisation d'outils, ce qu'ils considéraient comme un point de faiblesse critique si compromis. Comment l'équipe rouge a aidé à transformer les vulnérabilités en une forteresse Les résultats des tests de l'équipe rouge ont conduit OpenAI à revisiter et à renforcer l'architecture du ChatGPT agent. Parmi les initiatives entreprises, on trouve la création d'une architecture de vérification à double couche qui surveille 100% du trafic de production en temps réel. Voici quelques-unes des améliorations notables : Défense contre les instructions visuelles non pertinentes : Passant de 82% à 95% de performance. Exfiltration de données en contexte : Amélioration de 3 points passant de 75% à 78%. Exfiltration de données active : Passant de 58% à 67% de résistance. Fiabilité du système : Couverture complète, contrairement à l'échantillonnage utilisé auparavant. La manière dont cette architecture fonctionne est claire : elle bloque automatiquement toute activité suspecte et assure une surveillance complète. Par ailleurs, OpenAI a pris des décisions de sécurité difficiles mais nécessaires : Activation du mode Surveillance : Lorsque l'agentChatGPT accède à des contextes sensibles, comme les comptes bancaires ou les emails, le système interrompt toute activité si l'utilisateur s'éloigne. Désactivation des fonctionnalités de mémoire : Pour éviter les attaques d'exfiltration progressive des données. Restrictions du terminal : La connexion au réseau est limitée aux requêtes GET, empêchant l'exécution de commandes malveillantes. Protocole de remédiation rapide : Un nouveau système capable de corriger les vulnérabilités quelques heures après leur découverte. Ces mesures ont permis d'identifier et de corriger 16 vulnérabilités critiques avant le lancement. Un réveil aux risques biologiques Lors des tests, l'équipe rouge a également révélé le potentiel de l'agentChatGPT à être compromis et à augmenter les risques biologiques. Seize participants expérimentés, dotés de doctorats en biosécurité, ont essayé d'extraire des informations biologiques dangereuses. Ils ont montré que le modèle était capable de synthétiser des littératures publiées sur la modification et la création de menaces biologiques. Suite à ces découvertes, OpenAI a classifié l'agentChatGPT comme ayant une « Haute capacité » en matière de risques biologiques et chimiques. Cette classification n'est pas basée sur des preuves définitives de potentiel d'arme, mais sur une mesure préventive basée sur les résultats de l'équipe rouge. Cela a déclenché une série de protocoles de sécurité stricts. Les enseignements tirés par OpenAI Les 110 attaques soumises ont révélé des patrons d'attaque qui ont forcé des changements fondamentaux dans l'approche de sécurité d'OpenAI : La persistance vaut plus que le pouvoir : Les attaquants n'ont pas besoin d'exploits sophistiqués, ils ont simplement besoin de plus de temps. Les frontières de confiance sont fictives : Lorsque l'IA peut accéder à Google Drive, naviguer sur le web et exécuter du code, les périmètres traditionnels de sécurité disparaissent. La surveillance est obligatoire : L'équipe rouge a montré que la surveillance basée sur l'échantillonnage omettait des attaques critiques, conduisant à la nécessité d'une couverture complète. La vitesse est cruciale : Les cycles de correction traditionnels de plusieurs semaines sont inefficaces face aux attaques par injection de prompts qui peuvent se propager instantanément. OpenAI fixe de nouvelles normes de sécurité pour l'IA d'entreprise Pour les responsables de la sécurité informatique (CISO) évaluant le déploiement de l'IA, les découvertes de l'équipe rouge établissent des exigences claires : Protection mesurable : Le taux de défense de 95% de l'agentChatGPT contre les vecteurs d'attaque documentés fixe la norme de l'industrie. Visibilité complète : La surveillance à 100% du trafic n'est plus une simple aspiration, mais une nécessité. Réponse rapide : Les corrections doivent être apportées en heures, pas en semaines. Limites enforceable : Certaines opérations (comme l'accès à la mémoire durant les tâches sensibles) doivent être désactivées jusqu'à preuve de leur sécurité. Le testing effectué par UK AISI a été particulièrement instructif. Toutes les sept attaques universelles identifiées ont été corrigées avant le lancement, mais leur accès privilégié aux systèmes internes a révélé des failles qui seraient potentiellement exploitées par des adversaires déterminés. « C'est un moment crucial pour notre travail de préparation », a écrit Keren Gu sur X. « Avant d'atteindre l'Haute capacité, la Préparation consistait principalement à analyser les capacités et à planifier des mesures de protection. Maintenant, pour l'Agent et les modèles futurs plus performants, la préparation des mesures de protection est devenue une exigence opérationnelle. » Les équipes rouges sont essentielles pour construire des modèles d'IA plus sûrs et sécurisés Les sept exploits universels découverts par les chercheurs et les 110 attaques du réseau de red teaming d'OpenAI ont formé le creuset qui a forgé l'agentChatGPT. En montrant comment les agents d'IA pourraient être utilisés comme des armes, les équipes rouges ont contraint OpenAI à créer le premier système d'IA où la sécurité n'est plus simplement une fonctionnalité, mais sa base même. Les résultats de l'agentChatGPT prouvent l'efficacité des essais de red teaming : blocage de 95% des attaques visuelles, interception de 78% des tentatives d'exfiltration de données, surveillance de chaque interaction. Dans la course accélérée à l'IA, les entreprises qui survivront et prospéreront seront celles qui considèrent leurs équipes rouges comme les architectes principaux de la sécurité de la plateforme, les poussant aux limites de la sécurité et de la sûreté. Profil de l'entreprise OpenAI est une organisation de recherche en intelligence artificielle à but non lucratif fondée en 2015. Son objectif principal est de développer une IA bénéfique et de la rendre accessible à tous. En intégrant des équipes rouges dans son processus, OpenAI démontre son engagement à la fois sur la sécurité et l'innovation. Évaluation de l'industrie L'utilisation intensive de l'équipe rouge par OpenAI pour l'agentChatGPT a été saluée par de nombreux experts, qui y voient un exemple significatif de l'importance de la sécurité proactive dans les systèmes d'IA. Cette approche pionnière pourrait inspirer d'autres sociétés de technologie à adopter des méthodologies similaires, renforçant ainsi les normes de sécurité de l'ensemble de l'industrie.