Une faille critique dans les modèles d’IA révèle des données sensibles par des mises à jour invisibles
Les modèles d’intelligence artificielle (IA), notamment les grands modèles linguistiques (LLM), sont de plus en plus utilisés pour traiter des tâches complexes ou fournir des informations rapidement. Cependant, une équipe de chercheurs chinois, provenant de l’Institut Shanghai Qi Zhi, de l’Université normale d’Est de la Chine, de l’Université Tsinghua et de l’Académie des sciences de Chine, a révélé une vulnérabilité critique liée aux procédés de correction de ces modèles. Leur étude, publiée sur arXiv, montre que les mises à jour de paramètres effectuées pour corriger des erreurs ou supprimer des données sensibles peuvent, par inadvertance, révéler des informations confidentielles via des « empreintes » numériques laissées dans les modifications. Les LLM sont entraînés sur des corpus massifs contenant des trillions de tokens, ce qui entraîne une mémoire involontaire de données sensibles. Pour corriger ces erreurs sans re-entraîner le modèle entier, les chercheurs utilisent des méthodes dites « localiser-puis-modifier », qui ciblent spécifiquement les parties du modèle responsables de la sortie erronée ou indésirable. Or, cette recherche démontre que ces mises à jour de paramètres créent un canal latéral exploitable : les changements sont structurés selon une faible dimension (low-rank), ce qui permet à un attaquant de reconstruire l’information initiale via une analyse spectrale. Les chercheurs ont proposé un cadre d’attaque en deux étapes, baptisé KSTER (KeySpace Reconstruction-then-Entropy Reduction), qui permet de récupérer non seulement les sujets modifiés, mais aussi le contexte sémantique des données supprimées. Cette attaque a été testée avec succès sur plusieurs modèles majeurs, notamment GPT-J, Llama-3 et Qwen-2.5, démontrant une capacité élevée à extraire des informations sensibles, même après suppression apparente. Face à ce risque, l’équipe a conçu une stratégie de défense appelée « subspace camouflage ». Cette approche consiste à introduire des « décors sémantiques » dans les mises à jour de paramètres, masquant ainsi l’empreinte de la donnée modifiée sans compromettre l’efficacité du processus d’édition. Le camouflage subspace rend la reconstruction par un attaquant extrêmement difficile, tout en maintenant la fonctionnalité du modèle corrigé. Le code de l’attaque KSTER et de la défense subspace camouflage est disponible sur GitHub, ouvrant la voie à des recherches complémentaires. Cette étude souligne l’importance de considérer la sécurité des processus d’édition des LLM comme une composante essentielle de leur conception, au même titre que la performance ou la précision. Elle pourrait inspirer de nouvelles normes de sécurité pour les systèmes d’IA, en particulier dans les contextes où la protection des données personnelles est cruciale. Cette avancée marque une étape importante vers des modèles d’IA plus sûrs, capables de corriger leurs erreurs sans exposer les utilisateurs à de nouveaux risques.
