HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un mois

Évasion imperceptible des grands modèles linguistiques

Kuofeng Gao Yiming Li Chao Du Xin Wang Xingjun Ma Shu-Tao Xia Tianyu Pang

Évasion imperceptible des grands modèles linguistiques

Résumé

Les attaques par jailbreak sur la modalité visuelle reposent généralement sur des perturbations adversariales imperceptibles, tandis que les attaques sur la modalité textuelle sont généralement supposées nécessiter des modifications visibles (par exemple, des suffixes non sémantiques). Dans cet article, nous introduisons des attaques par jailbreak imperceptibles qui exploitent une catégorie de caractères Unicode appelés « sélecteurs de variation ». En ajoutant des sélecteurs de variation invisibles aux questions malveillantes, les prompts de jailbreak apparaissent visuellement identiques aux questions malveillantes d'origine à l'écran, tout en étant « secrètement » modifiés au niveau de la tokenisation. Nous proposons une chaîne de recherche (chain-of-search) pour générer de tels suffixes adversariaux afin d’induire des réponses nuisibles. Nos expériences montrent que nos attaques imperceptibles atteignent des taux élevés de succès contre quatre modèles de langage alignés (LLM), et se généralisent aux attaques par injection de prompt, sans toutefois produire de modification visible dans le prompt écrit. Le code est disponible à l’adresse suivante : https://github.com/sail-sg/imperceptible-jailbreaks.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Évasion imperceptible des grands modèles linguistiques | Articles de recherche | HyperAI