HyperAIHyperAI

Command Palette

Search for a command to run...

Des perturbations invisibles contournent les garde-fous IA

Des chercheurs de l'Université internationale de Floride ont mis au point une méthode nommée JaiLIP capable de contourner les filtres de sécurité intégrés à de nombreux modèles d'intelligence artificielle. Cette approche, développée par le professeur Hadi Amini et son assistant diplômé Md Jueal Mia, repose sur l'ajout de modifications imperceptibles au niveau des pixels d'une image. Bien que ces altérations passent inaperçues à l'œil humain, elles suffisent à tromper l'IA, qui interprète les images comme des suites de données numériques, et à la pousser à générer des réponses nuisibles, trompeuses ou contraires à ses politiques d'utilisation. Les tests menés sur le modèle multimodal BLIP-2, publiés dans la revue IEEE Xplore, révèlent que cette technique presque double le taux de réponses inadaptées produites par le système. À titre d'exemple, une image de feu de circulation légèrement modifiée a convaincu l'IA de fournir des instructions détaillées pour franchir les feux rouges sans être verbalisé. Les chercheurs soulignent que les petits modèles de langage, fréquemment déployés par les entreprises pour des tâches courantes comme le service client ou la comptabilité, sont particulièrement vulnérables à ce type de piratage visuel. Au-delà du risque de demandes malveillantes directes, cette faille expose les organisations qui intègrent des assistants ou des chatbots automatisés à une perte de confiance des utilisateurs et à de nouvelles brèches potentielles en cybersécurité. Les systèmes ouverts ou peu sécurisés sont les plus à risque. Pour y remédier, les auteurs recommandent plusieurs mesures pratiques : limiter le partage de données sensibles, notamment les visuels, restreindre les accès aux outils d'IA et évaluer rigoureusement leurs mécanismes de protection avant toute mise en production. Cette recherche s'inscrit dans une démarche offensive proactive. En identifiant et en exploitant ces vulnérabilités en amont, l'équipe vise à aider les développeurs à renforcer les garde-fous des futurs systèmes. Le défi consiste à doter l'intelligence artificielle d'une capacité à détecter des menaces cachées dans des modifications invisibles, garantissant ainsi que les outils d'IA restent fiables et sécurisés à mesure qu'ils s'imposent dans les environnements professionnels.

Liens associés