Command Palette
Search for a command to run...
Rishi Rajesh Shah Chen Henry Wu Shashwat Saxena Ziqian Zhong Alexander Robey Aditi Raghunathan

Résumé
Les progrès récents des modèles de langage à long contexte (LM) ont permis de traiter des entrées de plusieurs millions de tokens, élargissant ainsi leurs capacités pour des tâches complexes telles que l’usage d’agents informatiques. Toutefois, les implications en matière de sécurité liées à ces contextes étendus restent encore mal comprises. Pour combler cette lacune, nous introduisons NINJA (acronyme de Needle-in-haystack jailbreak attack), une méthode permettant de contourner les protections des modèles de langage alignés en ajoutant à des objectifs utilisateurs nuisibles du contenu bénin généré par le modèle lui-même. Une caractéristique essentielle de notre approche réside dans l’observation selon laquelle la position des objectifs nuisibles joue un rôle crucial dans la sécurité. Des expériences menées sur le benchmark standard de sécurité HarmBench montrent que NINJA augmente significativement les taux de réussite des attaques sur des modèles d’état de l’art, tant ouverts que propriétaires, notamment LLaMA, Qwen, Mistral et Gemini. Contrairement aux méthodes précédentes de contournement (jailbreaking), notre approche est à faible coût en ressources, transférable d’un modèle à l’autre et moins détectable. En outre, nous démontrons que NINJA est optimale en termes de ressources informatiques : sous un budget de calcul fixe, augmenter la longueur du contexte permet de surpasser l’effet d’une augmentation du nombre d’essais dans les attaques du type best-of-N. Ces résultats révèlent que même des contextes longs bénins — lorsqu’ils sont soigneusement structurés selon la position stratégique des objectifs — peuvent introduire des vulnérabilités fondamentales dans les modèles de langage modernes.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.