Le Diable derrière le masque : Une vulnérabilité de sécurité émergente des LLMs de diffusion

Les modèles de langage à grande échelle basés sur la diffusion (dLLMs) sont récemment apparus comme une alternative puissante aux modèles de langage autoregressifs, offrant une inférence plus rapide et une interactivité accrue grâce au décodage parallèle et à la modélisation bidirectionnelle. Cependant, malgré des performances solides dans la génération de code et le remplissage de texte, nous identifions une préoccupation fondamentale en matière de sécurité : les mécanismes d'alignement existants ne parviennent pas à protéger les dLLMs contre des prompts adverses masqués et contextuels, révélant ainsi de nouvelles vulnérabilités.Dans ce cadre, nous présentons DIJA, la première étude systématique et le premier cadre d'attaque de jailbreak qui exploite les faiblesses uniques en matière de sécurité des dLLMs. Plus précisément, notre DIJA proposé construit des prompts adverses avec des masques intercalaires qui exploitent les mécanismes de génération de texte des dLLMs, c'est-à-dire la modélisation bidirectionnelle et le décodage parallèle. La modélisation bidirectionnelle pousse le modèle à produire des sorties cohérentes contextuellement pour les espaces masqués, même lorsqu'ils sont nuisibles, tandis que le décodage parallèle limite le filtrage dynamique et l'échantillonnage de rejet du contenu dangereux. Cela entraîne l'échec des mécanismes d'alignement standard, permettant des complétions nuisibles dans les dLLMs alignés, même lorsque des comportements nuisibles ou des instructions dangereuses sont directement exposées dans le prompt.À travers une série d'expériences exhaustives, nous démontrons que DIJA surpasse considérablement les méthodes de jailbreak existantes, mettant en lumière une surface menaçante jusqu'alors négligée dans les architectures dLLM. Notamment, notre méthode atteint jusqu'à 100 % de taux de succès basé sur les mots-clés (ASR) sur Dream-Instruct, surpassant la meilleure référence précédente, ReNeLLM, jusqu'à 78,5 % en termes de taux de succès évaluateur (ASR) sur JailbreakBench et par 37,7 points en termes de score StrongREJECT, tout en n'exigeant aucune réécriture ou dissimulation du contenu nuisible dans le prompt de jailbreak.Nos résultats soulignent l'urgence de repenser l'alignement sécuritaire dans cette nouvelle classe de modèles linguistiques. Le code est disponible à l'adresse suivante : https://github.com/ZichenWen1/DIJA.