HyperAIHyperAI

Command Palette

Search for a command to run...

vor 16 Tagen

Jailbreaking im Heuhaufen

Rishi Rajesh Shah Chen Henry Wu Shashwat Saxena Ziqian Zhong Alexander Robey Aditi Raghunathan

Jailbreaking im Heuhaufen

Abstract

Neuere Fortschritte bei Sprachmodellen mit langer Kontextlänge (LMs) ermöglichen Eingaben mit Millionen von Tokens und erweitern damit deren Fähigkeiten bei komplexen Aufgaben wie der Nutzung durch Computer-Agenten. Die Sicherheitsimplikationen solcher erweiterten Kontexte bleiben jedoch unklar. Um diese Lücke zu schließen, stellen wir NINJA („Needle-in-haystack jailbreak attack“) vor, eine Methode, die ausgerichtete LMs durch Anhängen von harmlosen, vom Modell generierten Inhalten an schädliche Benutzerziele hinweg „jailbreakt“. Entscheidend für unsere Methode ist die Beobachtung, dass die Position schädlicher Ziele eine wichtige Rolle für die Sicherheit spielt. Experimente auf dem etablierten Sicherheitsbenchmark HarmBench zeigen, dass NINJA die Erfolgsraten von Angriffen erheblich erhöht – sowohl bei modernen Open-Source- als auch proprietären Modellen, darunter LLaMA, Qwen, Mistral und Gemini. Im Gegensatz zu früheren Jailbreaking-Methoden ist unser Ansatz ressourcenschonend, übertragbar und weniger leicht zu erkennen. Zudem zeigen wir, dass NINJA rechenzeitoptimal ist: Unter einer festen Rechenressourcen-Begrenzung übertrifft die Verlängerung des Kontexts die Steigerung der Anzahl der Versuche in Best-of-N-Jailbreak-Angriffen. Diese Ergebnisse offenbaren, dass selbst harmlose, sorgfältig strukturierte lange Kontexte grundlegende Schwachstellen in modernen Sprachmodellen hervorrufen können.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Jailbreaking im Heuhaufen | Forschungsarbeiten | HyperAI