Jailbreaker intérieur : comment des chercheurs déjouent les garde-fous des IA pour les rendre plus sûres
Des chercheurs de l’Université de Floride, dirigés par le professeur Sumit Kumar Jha du département d’Informatique et d’Ingénierie des Sciences (CISE), ont mis au point une méthode innovante pour tester la robustesse des systèmes d’intelligence artificielle (IA) en les poussant à franchir leurs propres barrières de sécurité. Intitulée « Jailbreaking the Matrix : Nullspace Steering for Controlled Model Subversion », leur étude, acceptée pour présentation au congrès ICLR 2026 à Rio de Janeiro, s’attaque à un enjeu crucial : la sécurité des modèles de langage à grande échelle (LLM) utilisés dans des domaines sensibles comme la santé, les banques ou le service client. Contrairement aux approches classiques qui manipulent uniquement les entrées utilisateur, cette méthode pénètre à l’intérieur des modèles pour analyser leurs « voies décisionnelles » internes. Leur technique, appelée Head-Masked Nullspace Steering (HMNS), consiste à identifier les composants internes (« têtes ») du modèle qui contribuent le plus à la prise de décision. En neutralisant ces éléments par zéroisation de leurs contributions dans la matrice décisionnelle, tout en modulant activement d’autres parties du système, les chercheurs observent comment le modèle réagit. Cette approche permet de déclencher des comportements non désirés, comme la génération de contenus dangereux ou inappropriés, même lorsqu’un système est censé être protégé. Le projet repose sur le supercalculateur HiPerGator de l’Université de Floride, nécessaire pour effectuer les calculs complexes requis par l’analyse fine des modèles. L’équipe, composée de Vishal Pramanik (doctorant), Maisha Maliha (Université du Oklahoma) et Susmit Jha (SRI International), a testé HMNS sur des modèles développés par Meta et Microsoft. Les résultats montrent que la méthode surpasse les techniques actuelles dans quatre benchmarks standard, tant en taux de réussite des attaques qu’en efficacité énergétique. En intégrant une métrique de « rapport compute-aware », l’étude montre que HMNS atteint ses objectifs avec moins de ressources, ce qui la rend plus fiable pour une évaluation équitable des défenses. Pour Jha, cette recherche n’a pas pour but de faciliter les abus, mais de renforcer la sécurité des systèmes. « En montrant précisément comment les défenses échouent, nous fournissons aux développeurs les informations nécessaires pour les renforcer », affirme-t-il. Il insiste sur le fait que tester une IA uniquement par des prompts externes est insuffisant : il faut « ouvrir le capot » et inspecter les mécanismes internes. Cette démarche proactif est essentielle alors que les LLM deviennent des infrastructures critiques. Les experts du secteur saluent cette approche. Selon une analyste en sécurité des systèmes d’IA, « cette méthode représente une avancée majeure en matière de red teaming, car elle va au-delà des tests superficiels ». Les entreprises comme Meta ou Alibaba, qui déployent des modèles ouverts, devront désormais intégrer des mécanismes de résilience interne plus robustes, inspirés de ces découvertes. L’objectif final est clair : rendre les IA non seulement puissantes, mais aussi sûres, fiables et responsables.
