Des modèles d'IA vulnérables avec peu de documents malveillants : une faille de sécurité inquiétante révélée par Anthropic
Une étude menée par Anthropic révèle que les modèles d’intelligence artificielle peuvent être compromise par des backdoors — des failles cachées permettant un contrôle malveillant — à partir d’un très faible nombre de documents malveillants. Contrairement à l’idée reçue selon laquelle ces attaques, appelées « poison training », nécessitent des volumes importants de données corrompues, l’enquête montre que même une poignée de documents malicieux suffit à introduire des failles fonctionnelles dans des modèles d’IA de grande taille. Les chercheurs d’Anthropic ont testé plusieurs modèles d’IA, y compris des versions très volumineuses, en leur injectant des données altérées conçues pour instaurer des comportements spécifiques. Par exemple, un modèle pouvait être poussé à répondre de manière inappropriée ou à exécuter des actions non désirées lorsqu’il rencontrait un certain motif ou mot-clé prédéfini. Ce type d’attaque, bien que discrète, peut avoir des conséquences graves si elle est exploitée dans des systèmes critiques, comme ceux utilisés dans la santé, la finance ou la sécurité. L’un des résultats les plus surprenants de l’étude est que l’efficacité de ces attaques ne croît pas proportionnellement avec la taille du modèle. Autrement dit, un modèle plus grand n’est pas nécessairement plus résistant aux backdoors introduits par des données malveillantes. Cette constatation remet en question l’hypothèse selon laquelle les modèles plus grands seraient intrinsèquement plus sûrs, car leur complexité les rendrait plus difficiles à manipuler. Les chercheurs soulignent que ces failles peuvent être très difficiles à détecter, car elles ne modifient pas le comportement général du modèle, mais seulement son interaction avec des entrées spécifiques. Elles restent donc invisibles aux tests classiques de qualité ou de performance. Cela soulève des préoccupations importantes concernant la sécurité des modèles d’IA dans des environnements réels, où les données d’entraînement peuvent être compromises sans que cela soit immédiatement évident. L’étude met en garde contre une surestimation de la sécurité des modèles d’IA basés sur des grandes quantités de données. Elle appelle à renforcer les mécanismes de vérification des données d’entraînement, à développer des outils de détection de contamination et à adopter des pratiques de sécurité plus rigoureuses tout au long du cycle de développement des modèles. En somme, l’efficacité des attaques « poison » démontre que la sécurité de l’IA ne dépend pas uniquement de la taille du modèle, mais surtout de la qualité et de l’intégrité des données utilisées pour l’entraîner.