武大学子揭秘大模型安全漏洞:黑盒攻击操纵AI观点生成
Récemment, une étude menée par Chen Zhuo, doctorant à l’École d’information et de gestion de l’Université de Wuhan, a été acceptée pour présentation au 32e Congrès international sur la sécurité informatique et les communications (ACM Conference on Computer and Communications Security, ACM CCS 2025). En tant qu’auteur principal, Chen a co-écrit un article intitulé FlippedRAG : Black-Box Opinion Manipulation Attacks to Retrieval-Augmented Generation of Large Language Models, qui explore les vulnérabilités des systèmes de génération augmentée par recherche (RAG) dans des scénarios d’attaque en mode « boîte noire ». Cette recherche, supervisée par les professeurs Lu Wei et Cheng Qikai, le chercheur invité Zhang Fan, le postdoctorant Liu Jiawei (auteur correspondant), ainsi que le professeur Liu Xiaozhong de l’Institut de technologie de Worcester aux États-Unis, a été réalisée en collaboration avec les doctorants Liu Haotan, les masters Chen Miankun et l’étudiant de licence Gong Yuyang. Le travail s’inscrit dans un contexte où la technologie RAG, utilisée pour améliorer la précision des réponses des modèles linguistiques à grande échelle en intégrant des bases de connaissances externes, suscite un intérêt croissant. Toutefois, les questions de fiabilité et de sécurité de ces systèmes restent préoccupantes, surtout dans des tâches impliquant des opinions subjectives ou controversées. La plupart des études existantes se concentrent sur des environnements « boîte blanche » ou sur des tâches factuelles, laissant un vide critique concernant les menaces potentielles dans des scénarios réalistes, où l’attaquant n’a pas accès aux paramètres internes du modèle. Pour combler cette lacune, l’équipe a conçu une méthode d’attaque par apprentissage transféré appelée FlippedRAG. Cette approche permet à un attaquant d’induire des biais dans les réponses générées par les modèles, même sans connaître leur architecture interne. En exploitant un petit nombre de documents contaminés et en concevant des déclencheurs textuels adverses, FlippedRAG parvient à modifier l’orientation des opinions générées, avec une efficacité significative : une augmentation moyenne de 16,7 % du taux de succès par rapport aux méthodes de référence, et un décalage de 50 % dans la polarité des réponses. Des expérimentations avec des utilisateurs réels ont également montré que cette attaque peut induire un changement de perception de 20 % dans les opinions des individus, soulignant son impact réel sur la cognition humaine. De plus, FlippedRAG réussit à contourner plusieurs mécanismes de détection de défense existants, dépassant les limites des attaques antérieures, souvent limitées à des scénarios « boîte blanche » ou basées sur des méthodes heuristiques facilement détectables. Le congrès ACM CCS 2025 se tiendra du 13 au 17 octobre 2025 à Taipei, Taïwan. Reconnu comme l’un des quatre sommets mondiaux de la sécurité informatique – aux côtés de IEEE S&P, USENIX Security et NDSS –, il est classé A par le Comité chinois des sciences informatiques (CCF) et affiche un taux d’acceptation moyen de 18 % au cours des dix dernières années, témoignant de son haut niveau de sélectivité et de l’excellence scientifique des travaux publiés.
