HyperAIHyperAI

Command Palette

Search for a command to run...

OpenAI admet que les navigateurs IA resteront toujours vulnérables aux attaques par injection de prompts

OpenAI reconnaît que les navigateurs alimentés par l’intelligence artificielle, comme son propre ChatGPT Atlas lancé en octobre, resteront vulnérables aux attaques par injection de prompts à long terme. Ces attaques, qui consistent à manipuler un agent IA via des instructions cachées dans du contenu web ou des emails, sont comparées par OpenAI à des escroqueries ou du social engineering : des menaces fondamentalement difficiles à éliminer complètement. Dans un billet publié lundi, la société admet que le mode « agent » de ChatGPT Atlas élargit la surface d’attaque, rendant les systèmes plus exposés. Dès le lancement, des chercheurs en sécurité ont démontré qu’un simple texte dans Google Docs pouvait modifier le comportement du navigateur. Brave avait déjà mis en garde contre ce risque systémique pour les navigateurs IA, notamment Perplexity Comet. Le Centre national de cybersécurité britannique (NCSC) a également souligné que ces attaques « pourraient jamais être totalement maîtrisées », conseillant plutôt de réduire leur impact que de chercher une solution définitive. Face à ce défi persistant, OpenAI mise sur une stratégie proactive : un cycle rapide de détection et de correction des vulnérabilités. La société a développé un « attaquant automatisé basé sur un modèle linguistique » (LLM), entraîné par apprentissage par renforcement pour simuler des cyberattaquants. Ce bot teste des stratégies d’attaque dans un environnement simulé, observe comment l’agent cible réagit, ajuste ses tactiques et itère rapidement. Cette approche permet de découvrir des stratégies d’attaque complexes, parfois inédites, que les équipes humaines ou les rapports externes n’avaient pas encore identifiées. Dans une démonstration, le bot a réussi à glisser une instruction malveillante dans un email, poussant l’agent à envoyer une démission au lieu d’un message d’absence. Après une mise à jour de sécurité, le système a réussi à détecter cette tentative et à alerter l’utilisateur. OpenAI insiste sur le fait que, bien que la sécurité parfaite soit illusoire, des défenses en couches, testées continuellement, peuvent réduire significativement les risques. D’autres acteurs comme Anthropic et Google adoptent des approches similaires, en renforçant les contrôles architecturaux et politiques. Cependant, Rami McCarthy, chercheur principal chez Wiz, met en garde : « Le risque dans les systèmes IA repose sur l’autonomie multipliée par l’accès. » Les navigateurs agents, qui combinent un haut niveau d’accès (email, paiements) et une autonomie modérée, se situent dans une zone particulièrement risquée. Il recommande de limiter l’accès aux données sensibles et de contraindre l’autonomie en exigeant une confirmation humaine pour les actions critiques. OpenAI conseille aux utilisateurs d’attribuer des tâches précises aux agents plutôt que de leur donner une latitude excessive. « Une grande liberté facilite l’influence de contenu malveillant, même avec des protections », souligne la société. Malgré ces efforts, McCarthy reste sceptique : « Pour la plupart des usages courants, les bénéfices des navigateurs agents ne justifient pas encore leur profil de risque élevé. » L’équilibre entre puissance et sécurité évoluera, mais aujourd’hui, les compromis restent réels.

Liens associés