HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 16 jours

Jailbreaking dans la meule de foin

Rishi Rajesh Shah Chen Henry Wu Shashwat Saxena Ziqian Zhong Alexander Robey Aditi Raghunathan

Jailbreaking dans la meule de foin

Résumé

Les progrès récents des modèles de langage à long contexte (LM) ont permis de traiter des entrées de plusieurs millions de tokens, élargissant ainsi leurs capacités pour des tâches complexes telles que l’usage d’agents informatiques. Toutefois, les implications en matière de sécurité liées à ces contextes étendus restent encore mal comprises. Pour combler cette lacune, nous introduisons NINJA (acronyme de Needle-in-haystack jailbreak attack), une méthode permettant de contourner les protections des modèles de langage alignés en ajoutant à des objectifs utilisateurs nuisibles du contenu bénin généré par le modèle lui-même. Une caractéristique essentielle de notre approche réside dans l’observation selon laquelle la position des objectifs nuisibles joue un rôle crucial dans la sécurité. Des expériences menées sur le benchmark standard de sécurité HarmBench montrent que NINJA augmente significativement les taux de réussite des attaques sur des modèles d’état de l’art, tant ouverts que propriétaires, notamment LLaMA, Qwen, Mistral et Gemini. Contrairement aux méthodes précédentes de contournement (jailbreaking), notre approche est à faible coût en ressources, transférable d’un modèle à l’autre et moins détectable. En outre, nous démontrons que NINJA est optimale en termes de ressources informatiques : sous un budget de calcul fixe, augmenter la longueur du contexte permet de surpasser l’effet d’une augmentation du nombre d’essais dans les attaques du type best-of-N. Ces résultats révèlent que même des contextes longs bénins — lorsqu’ils sont soigneusement structurés selon la position stratégique des objectifs — peuvent introduire des vulnérabilités fondamentales dans les modèles de langage modernes.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Jailbreaking dans la meule de foin | Articles de recherche | HyperAI