Sécurité compromise des agents IA
Une nouvelle étude de Google DeepMind met en lumière des vulnérabilités de sécurité critiques liées aux agents d'intelligence artificielle, identifiant six catégories d'attaques qui n'existaient pas il y a deux ans. Ces recherches soulignent particulièrement la fragilité des agents de contrôle informatique, capables de naviguer sur le web, qui introduisent une surface d'attaque dynamique et inédite. L'étude propose une taxonomie structurée par la boucle de l'agent ciblé, offrant un vocabulaire partagé essentiel pour la conception de défenses adaptées. La première catégorie, l'injection de contenu, exploite la nature dynamique du web. Les agents peuvent être induits en erreur par des éléments visuels malveillants, comme des pop-ups, qu'ils perçoivent comme légitimes. Des expériences montrent que plus de 90 % des actions des agents attaqués consistent à cliquer sur ces pop-ups hostiles. Au-delà de l'injection directe, la manipulation sémantique opère par des pressions distributionnelles subtiles. En saturant une page de phrases d'autorité ou en enveloppant une demande malveillante dans le cadre d'un exercice d'éducation, un modèle peut ignorer ses consignes de sécurité ou valider une activité nocive comme étant bénigne. La manipulation de l'état cognitif de l'agent représente un risque majeur, notamment via l'empoisonnement de la mémoire. Le RAG (Retrieval-Augmented Generation) peut être corrompu en injectant de fausses informations dans les corpus de récupération, faisant traiter du contenu attaquant comme un fait vérifié. Bien que l'empoisonnement des données d'entraînement soit peu probable, le risque plus immédiat réside dans la mémoire à long terme des agents. Si un agent stocke durablement des conversations ou des documents sans vérification de leur provenance, une seule entrée contaminée peut créer une porte dérobée persistante. Le contrôle comportemental, ou piratage direct, permet à un attaquant de détourner l'agent pour qu'il viole ses instructions, fuit des données ou exécute des tâches interdites. Ce type d'attaque passe souvent par l'injection indirecte, où la commande malveillante est cachée dans un email, une page web ou un document que l'agent lit. Des tests ont démontré un succès de plus de 80 % pour l'exfiltration de fichiers locaux via cette méthode. Une variation plus subtile concerne le piratage des sous-agents. Les agents modernes engendrent des assistants pour la planification ou l'évaluation. En plantant des instructions dans un fichier lu par l'orchestrateur, un attaquant peut forcer le système à générer un sous-agent aux consignes hostiles, héritant des permissions de l'agent principal. Les pièges systémiques et ceux impliquant l'humain complètent ce tableau. Les premiers exploitent le fait que de nombreux agents partagent les mêmes modèles de base, permettant à une seule entrée ciblée de déclencher un comportement erroné identique sur des milliers d'agents simultanément. Cela peut mener à des cascades de défaillances ou à une collusion tacite où les agents convergent vers un mauvais comportement sans coordination directe. Enfin, les pièges humain-in-the-loop visent l'approbateur humain plutôt que l'agent. La fatigue d'approbation, causée par le volume de demandes, peut inciter un humain à valider une diff ou un résumé sans lecture approfondie, l'agent servant simplement de vecteur de livraison de la menace. L'auteur de l'étude souligne que cette taxonomie est fondamentale car elle distingue le moment de la boucle d'agent où l'attaque opère de l'objectif de l'attaquant. Cette distinction est cruciale pour l'architecture de défense : un filtre d'ingestion ne protège pas contre l'empoisonnement de la mémoire, et un modèle critique ne détecte pas les fragments de pièges compositionnels dans un système multi-agents. Une stack de défense efficace doit donc refléter fidèlement l'ensemble de la boucle de l'agent. Bien que certaines catégories comme les pièges systémiques restent largement théoriques, ce document établira probablement une référence pour les équipes cherchant à sécuriser l'émergence des applications autonomes.
