HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

Imperzeptible Jailbreaking von großen Sprachmodellen

Kuofeng Gao Yiming Li Chao Du Xin Wang Xingjun Ma Shu-Tao Xia Tianyu Pang

Imperzeptible Jailbreaking von großen Sprachmodellen

Abstract

Angriffe durch „Jailbreaking“ im Bereich der visuellen Modalität beruhen typischerweise auf imperzeptiblen, adversarialen Störungen, während Angriffe auf die textuelle Modalität gewöhnlich sichtbare Veränderungen (z. B. semantiklose Suffixe) voraussetzen. In diesem Paper stellen wir imperzeptible Jailbreak-Angriffe vor, die eine Klasse von Unicode-Zeichen namens „Variationsauswähler“ ausnutzen. Durch Anhängen unsichtbarer Variationselektoren an bösartige Fragen erscheinen die Jailbreak-Prompts auf dem Bildschirm optisch identisch mit den ursprünglichen bösartigen Fragen, während ihre Tokenisierung „geheim“ verändert wird. Wir schlagen eine Chain-of-Search-Pipeline vor, um derartige adversariale Suffixe zu generieren, die schädliche Antworten hervorrufen. Unsere Experimente zeigen, dass unsere imperzeptiblen Jailbreaks hohe Angriffserfolgsraten bei vier ausgerichteten großen Sprachmodellen erzielen und sich auf Prompt-Injektionsangriffe verallgemeinern lassen, ohne dabei sichtbare Änderungen im geschriebenen Prompt hervorzurufen. Der Quellcode ist unter https://github.com/sail-sg/imperceptible-jailbreaks verfügbar.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Imperzeptible Jailbreaking von großen Sprachmodellen | Forschungsarbeiten | HyperAI