Command Palette
Search for a command to run...
Imperzeptible Jailbreaking von großen Sprachmodellen
Kuofeng Gao Yiming Li Chao Du Xin Wang Xingjun Ma Shu-Tao Xia Tianyu Pang

Abstract
Angriffe durch „Jailbreaking“ im Bereich der visuellen Modalität beruhen typischerweise auf imperzeptiblen, adversarialen Störungen, während Angriffe auf die textuelle Modalität gewöhnlich sichtbare Veränderungen (z. B. semantiklose Suffixe) voraussetzen. In diesem Paper stellen wir imperzeptible Jailbreak-Angriffe vor, die eine Klasse von Unicode-Zeichen namens „Variationsauswähler“ ausnutzen. Durch Anhängen unsichtbarer Variationselektoren an bösartige Fragen erscheinen die Jailbreak-Prompts auf dem Bildschirm optisch identisch mit den ursprünglichen bösartigen Fragen, während ihre Tokenisierung „geheim“ verändert wird. Wir schlagen eine Chain-of-Search-Pipeline vor, um derartige adversariale Suffixe zu generieren, die schädliche Antworten hervorrufen. Unsere Experimente zeigen, dass unsere imperzeptiblen Jailbreaks hohe Angriffserfolgsraten bei vier ausgerichteten großen Sprachmodellen erzielen und sich auf Prompt-Injektionsangriffe verallgemeinern lassen, ohne dabei sichtbare Änderungen im geschriebenen Prompt hervorzurufen. Der Quellcode ist unter https://github.com/sail-sg/imperceptible-jailbreaks verfügbar.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.