Rishi Rajesh Shah Chen Henry Wu Shashwat Saxena Ziqian Zhong Alexander Robey Aditi Raghunathan

Abstract
Neuere Fortschritte bei Sprachmodellen mit langer Kontextlänge (LMs) ermöglichen Eingaben mit Millionen von Tokens und erweitern damit deren Fähigkeiten bei komplexen Aufgaben wie der Nutzung durch Computer-Agenten. Die Sicherheitsimplikationen solcher erweiterten Kontexte bleiben jedoch unklar. Um diese Lücke zu schließen, stellen wir NINJA („Needle-in-haystack jailbreak attack“) vor, eine Methode, die ausgerichtete LMs durch Anhängen von harmlosen, vom Modell generierten Inhalten an schädliche Benutzerziele hinweg „jailbreakt“. Entscheidend für unsere Methode ist die Beobachtung, dass die Position schädlicher Ziele eine wichtige Rolle für die Sicherheit spielt. Experimente auf dem etablierten Sicherheitsbenchmark HarmBench zeigen, dass NINJA die Erfolgsraten von Angriffen erheblich erhöht – sowohl bei modernen Open-Source- als auch proprietären Modellen, darunter LLaMA, Qwen, Mistral und Gemini. Im Gegensatz zu früheren Jailbreaking-Methoden ist unser Ansatz ressourcenschonend, übertragbar und weniger leicht zu erkennen. Zudem zeigen wir, dass NINJA rechenzeitoptimal ist: Unter einer festen Rechenressourcen-Begrenzung übertrifft die Verlängerung des Kontexts die Steigerung der Anzahl der Versuche in Best-of-N-Jailbreak-Angriffen. Diese Ergebnisse offenbaren, dass selbst harmlose, sorgfältig strukturierte lange Kontexte grundlegende Schwachstellen in modernen Sprachmodellen hervorrufen können.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.