vor einem Monat

Imperzeptible Jailbreaking von großen Sprachmodellen

Details der Forschungsarbeit anzeigen Code anzeigen

Kuofeng Gao Yiming Li Chao Du Xin Wang Xingjun Ma Shu-Tao Xia Tianyu Pang

Imperzeptible Jailbreaking von großen Sprachmodellen

Abstract

Angriffe durch „Jailbreaking“ im Bereich der visuellen Modalität beruhen typischerweise auf imperzeptiblen, adversarialen Störungen, während Angriffe auf die textuelle Modalität gewöhnlich sichtbare Veränderungen (z. B. semantiklose Suffixe) voraussetzen. In diesem Paper stellen wir imperzeptible Jailbreak-Angriffe vor, die eine Klasse von Unicode-Zeichen namens „Variationsauswähler“ ausnutzen. Durch Anhängen unsichtbarer Variationselektoren an bösartige Fragen erscheinen die Jailbreak-Prompts auf dem Bildschirm optisch identisch mit den ursprünglichen bösartigen Fragen, während ihre Tokenisierung „geheim“ verändert wird. Wir schlagen eine Chain-of-Search-Pipeline vor, um derartige adversariale Suffixe zu generieren, die schädliche Antworten hervorrufen. Unsere Experimente zeigen, dass unsere imperzeptiblen Jailbreaks hohe Angriffserfolgsraten bei vier ausgerichteten großen Sprachmodellen erzielen und sich auf Prompt-Injektionsangriffe verallgemeinern lassen, ohne dabei sichtbare Änderungen im geschriebenen Prompt hervorzurufen. Der Quellcode ist unter https://github.com/sail-sg/imperceptible-jailbreaks verfügbar.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Imperzeptible Jailbreaking von großen Sprachmodellen

Kuofeng Gao Yiming Li Chao Du Xin Wang Xingjun Ma Shu-Tao Xia Tianyu Pang

Abstract

KI mit KI entwickeln

Hyper Newsletters