Recherche de Wuhan University : Nouvelle Méthode d'Attaque de Backdoor sur les Grands Modèles de Langue Acceptée à USENIX Security 2025
Récemment, une étude réalisée par les étudiants du Master de la National Cybersecurity College de l'Université de Wuhan a été acceptée pour publication lors de la 34e conférence USENIX Security, qui se tiendra en août 2025 à Seattle. Le premier auteur, Yan Nan, est un étudiant entré en 2023 dans ce programme de Master. Le travail a été encadré par Li Yucheng (vice-rechercheur associé) et Chen Jing (professeur), tous deux coauteurs communiquants, ainsi que par He Kun (maître de conférences). WANG Xiong, maître de conférences à l'Université de la Technologie Centrale de Hubei, et LI Bo, professeur à l'Université des Sciences et Technologies de Hong Kong, ont également participé à cette recherche. Le papier intitulé “EmbedX : Attaque par arrière-porte basée sur des déclencheurs croisés pour les grandes modèles de langage” aborde les défis de sécurité auxquels les grands modèles de langage (GMLs) comme GPT-4 et LLaMA sont confrontés. Ces modèles, qui ont atteint des performances exceptionnelles dans diverses tâches de traitement du langage naturel, sont largement utilisés pour des applications comme la traduction, la génération de textes et les assistants conversationnels. Cependant, ils sont vulnérables à des attaques par arrière-porte, où des attaquants peuvent intégrer des mots-clés spécifiques lors de la formation du modèle, provoquant des réponses malveillantes ou erronées lorsqu'ils sont activés. Les méthodes actuelles d'attaques par arrière-porte souffrent de plusieurs limitations. Elles utilisent des mots-clés discrets qui ne supportent pas l'optimisation automatique, rendant difficile la recherche de déclencheurs optimaux pour des tâches spécifiques. De plus, ces attaques se basent généralement sur un unique mot-clé, limitant leur efficacité face aux variations linguistiques des utilisateurs et réduisant considérablement leur performance dans des contextes multilingues et transculturels. Pour adapter ces attaques, il est nécessaire de retraîner le modèle avec de nouveaux mots-clés, ce qui pose des problèmes de temps et de discrétion. Pour surmonter ces contraintes, les auteurs ont proposé EmbedX, un cadre d'attaque par arrière-porte basé sur l'espace d'embedding. Comme illustré dans la figure 1, EmbedX ne s'appuie pas sur des mots-clés discrets mais génère des "déclencheurs souples" en optimisant des vecteurs d'embedding continus. Ces déclencheurs souples établissent une connexion avec les sorties cibles, permettant une personnalisation dynamique et adaptée aux scénarios d'arrière-porte. De plus, le système aligne des tokens de différents styles linguistiques sur des déclencheurs souples en utilisant leurs représentations semantiques dans l'espace d'embedding. Ainsi, des mots-clés variés peuvent être cartographiés sur un même déclencheur flexible, activant une unique réponse d'arrière-porte. Pour améliorer la discrétion de l'attaque, EmbedX introduit des contraintes dans les domaines fréquentiel et des gradients, rapprochant les échantillons empoisonnés des échantillons normaux dans l'espace latent du modèle. Les tests ont été réalisés sur plusieurs modèles de langage open-source populaires, tels que LLaMA, BLOOM et Gemma, ainsi que dans six contextes linguistiques, couvrant des tâches de classification des sentiments, de détection des propos haineux et de génération d'instructions. Les résultats montrent que EmbedX surpasserait les méthodes existantes en termes de taux de réussite, de rapidité et de discrétion des attaques. En moyenne, le processus ne prend environ que 0.53 secondes, avec un taux de succès nearing almost 100%, en plus d'une amélioration de la précision du modèle de 3.2%. Cette recherche a non seulement mis en lumière les points faibles potentiels des mécanismes de défense actuels en matière de manipulation sémantique, mais a également posé les bases pour des technologies de détection d'arrière-porte plus efficaces et discrètes. La conférence USENIX Security, qui a débuté en 1990, est l'une des quatre principales conférences internationales dans le domaine de la sécurité informatique, aux côtés de IEEE S&P, ACM CCS et NDSS. Elle est également classée comme une conférence de catégorie A par l'Association Chinoise des Ordinateurs (CCF). L'acceptation de cette étude au sein de la conférence USENIX Security 2025 souligne la pertinence et l'impact de la recherche menée par les étudiants de l'Université de Wuhan en matière de sécurité des grands modèles de langage.