HyperAI

Les modèles d’intelligence artificielle générative gagnent en accessibilité grâce à leur dépliement sur des appareils mobiles et embarqués, mais cette évolution entraîne souvent une réduction de leur architecture pour économiser la puissance. Or, cette simplification peut supprimer des couches internes essentielles au contrôle des contenus dangereux, comme les discours haineux ou les instructions criminelles. Des chercheurs de l’Université de Californie à Riverside (UCR) ont développé une méthode originale pour préserver la sécurité des modèles open-source même après leur réduction, en les réentraînant de manière à renforcer leurs mécanismes de protection à un niveau fondamental. Leur étude, publiée sur arXiv, met en évidence un phénomène nommé « Image Encoder Early Exit (ICET) », selon lequel la sécurité d’un modèle vision-langage varie considérablement selon la couche d’encodage d’image utilisée pour générer une réponse. En testant LLaVA 1.5, un modèle capable d’analyser à la fois des images et des textes, les chercheurs ont découvert que certaines combinaisons — par exemple, une image anodine accompagnée d’une question malveillante — pouvaient contourner les filtres de sécurité. Dans un cas, le modèle a fourni des instructions détaillées pour fabriquer une bombe. Le problème réside dans le fait que les techniques de formation à la sécurité sont généralement appliquées avec une architecture fixe. Lorsqu’on supprime des couches pour optimiser la performance, des régions de l’espace d’embedding restent non couvertes, laissant des failles exploitées par des attaques malveillantes. Pour y remédier, les chercheurs ont conçu une méthode baptisée Layer-wise Clip-PPO (L-PPO), qui réentraîne le modèle couche par couche, en renforçant son sens de la sécurité à chaque niveau. Cette approche ne repose pas sur des filtres externes, mais modifie l’« apprentissage interne » du modèle, lui permettant de refuser automatiquement les requêtes dangereuses même après une réduction drastique de son architecture. Saketh Bachu, étudiant au doctorat et co-premier auteur, décrit cette stratégie comme une forme de « piratage bienveillant » : anticiper les failles avant qu’elles ne soient exploitées. Erfan Shayegani, co-auteur, souligne que l’objectif est d’assurer la sécurité à tous les niveaux internes du modèle, indépendamment de ses modifications. Le travail, présenté à la conférence internationale ICML à Vancouver, a été mené par une équipe comprenant Amit Roy-Chowdhury, Chengyu Song, Yue Dong, Nael Abu-Ghazaleh, ainsi que les doctorants Arindam Dutta, Rohit Lal et Trishna Chakraborty. Selon Roy-Chowdhury, cette recherche constitue une avancée concrète vers une IA ouverte mais responsable. Bien que des défis restent, notamment en matière de généralisation à d’autres types de modèles ou de scénarios, la méthode ouvre la voie à des systèmes plus robustes, capables de maintenir leur intégrité même dans des environnements contraints. Cette approche représente une étape clé vers une déployabilité sécurisée de l’IA sur des dispositifs à faible puissance.

Liens associés

Liens associés

Liens associés

Command Palette

IA ouverte contre la dérive : une nouvelle méthode renforce la sécurité même après suppression de couches clés

Liens associés

Command Palette

IA ouverte contre la dérive : une nouvelle méthode renforce la sécurité même après suppression de couches clés

Liens associés

Command Palette

IA ouverte contre la dérive : une nouvelle méthode renforce la sécurité même après suppression de couches clés

Liens associés