L'équipe de ChatGPT conçoit des agents IA capables de résister aux injections d'invites
Les agents intelligents artificiels, de plus en plus capables de naviguer sur le web et d'exécuter des actions pour le compte des utilisateurs, ouvrent de nouvelles voies d'attaque. Ces menaces, qualifiées d'injections de prompt, consistent à intégrer des instructions malveillantes dans du contenu externe pour manipuler le modèle et le faire accomplir des tâches non demandées. L'évolution récente de ces attaques montre qu'elles ressemblent de moins en moins à de simples dépassements techniques et de plus en plus à de l'ingénierie sociale. Cette mutation change fondamentalement la stratégie de défense. Si le problème n'est plus seulement d'identifier une chaîne de caractères malveillante, mais de résister à un contenu trompeur ou manipulatoire, le filtrage des entrées seul devient insuffisant. Il est impératif de concevoir les systèmes de manière à ce que l'impact de la manipulation soit limité, même si une attaque parvient à réussir. Les premières attaques pouvaient être aussi simples qu'une modification d'article de Wikipédia contenant des directives explicites. À l'heure actuelle, les modèles plus performants résistent mieux à ces suggestions directes, poussant les attaquants à adopter des tactiques sophistiquées d'ingénierie sociale. Les approches traditionnelles de cybersécurité, comme le pare-feu IA qui tente de classifier les entrées en malveillantes ou normales, échouent souvent face à ces attaques complexes. Détecter une telle manipulation revient à identifier un mensonge ou une désinformation sans le contexte nécessaire. Par conséquent, l'approche défensive doit s'inspirer de la gestion des risques d'ingénierie sociale appliquée aux humains dans d'autres domaines. L'objectif n'est plus l'identification parfaite de l'input malveillant, mais la mise en place de systèmes où les capacités de l'agent sont restreintes pour limiter les risques, même en cas de compromission. On peut imaginer un agent IA dans un système à trois acteurs similaire à un service client : l'agent agit pour son employeur tout en étant constamment exposé à des entrées externes hostiles. Tout comme un agent humain reçoit des règles et des limites (montant maximal de remboursement, vérification de l'identité) pour limiter les dégâts en cas de tentative de phishing ou de chantage, l'agent IA doit bénéficier de contrôles similaires. Dans ChatGPT, cette stratégie combine le modèle d'ingénierie sociale avec des approches de sécurité plus classiques, notamment l'analyse source-puits. Cette analyse suppose qu'une attaque nécessite à la fois une source d'influence (contenu non fiable) et un puits (une action dangereuse comme la transmission de données ou l'exécution d'une commande). L'objectif est d'empêcher qu'aucune action dangereuse ou aucune fuite d'information sensible ne se produise sans garde-fous appropriés. Bien que la plupart des tentatives de ChatGPT échouent grâce à l'entraînement de sécurité qui conduit le modèle à refuser les demandes, des mesures supplémentaires sont déployées pour les cas résiduels. Une mitigation appelée URL sécurisée détecte lorsqu'une information apprise dans la conversation serait transmise à un tiers. Dans ces scénarios rares, l'utilisateur est alerté et invité à confirmer la transmission, ou l'action est bloquée. Pour les développeurs intégrant des modèles dans des systèmes d'application, il est recommandé de réfléchir aux contrôles qu'un humain aurait dans une situation équivalente et d'implémenter ces mêmes mécanismes. Bien que des modèles plus intelligents puissent théoriquement mieux résister à l'ingénierie sociale, cela ne s'avère pas toujours réalisable ou rentable. La recherche se poursuit pour intégrer ces leçons dans les architectures de sécurité et l'entraînement des modèles, garantissant ainsi des interactions sûres avec un monde extérieur adversarial.
