Command Palette
Search for a command to run...
Évasion imperceptible des grands modèles linguistiques
Kuofeng Gao Yiming Li Chao Du Xin Wang Xingjun Ma Shu-Tao Xia Tianyu Pang

Résumé
Les attaques par jailbreak sur la modalité visuelle reposent généralement sur des perturbations adversariales imperceptibles, tandis que les attaques sur la modalité textuelle sont généralement supposées nécessiter des modifications visibles (par exemple, des suffixes non sémantiques). Dans cet article, nous introduisons des attaques par jailbreak imperceptibles qui exploitent une catégorie de caractères Unicode appelés « sélecteurs de variation ». En ajoutant des sélecteurs de variation invisibles aux questions malveillantes, les prompts de jailbreak apparaissent visuellement identiques aux questions malveillantes d'origine à l'écran, tout en étant « secrètement » modifiés au niveau de la tokenisation. Nous proposons une chaîne de recherche (chain-of-search) pour générer de tels suffixes adversariaux afin d’induire des réponses nuisibles. Nos expériences montrent que nos attaques imperceptibles atteignent des taux élevés de succès contre quatre modèles de langage alignés (LLM), et se généralisent aux attaques par injection de prompt, sans toutefois produire de modification visible dans le prompt écrit. Le code est disponible à l’adresse suivante : https://github.com/sail-sg/imperceptible-jailbreaks.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.