HyperAI
vor 12 Tagen

Der Teufel hinter der Maske: Eine aufkommende Sicherheitslücke von Diffusions-LLMs

Zichen Wen; Jiashu Qu; Dongrui Liu; Zhiyuan Liu; Ruixi Wu; Yicun Yang; Xiangqi Jin; Haoyun Xu; Xuyang Liu; Weijia Li; Chaochao Lu; Jing Shao; Conghui He; Linfeng Zhang
Der Teufel hinter der Maske: Eine aufkommende Sicherheitslücke von Diffusions-LLMs
Abstract

Diffusionsbasierte große Sprachmodelle (dLLMs) sind kürzlich als leistungsstarke Alternative zu autoregressiven großen Sprachmodellen hervorgetreten, da sie durch paralleles Decoding und bidirektionales Modellieren eine schnellere Inferenz und größere Interaktivität bieten. Trotz der starken Leistung bei Codegenerierung und Textergänzung haben wir jedoch eine grundlegende Sicherheitsbedenken identifiziert: bestehende Ausrichtungsmechanismen schützen dLLMs nicht vor kontextsensiblen, maskierten Eingabeangriffen, was neue Verwundbarkeiten aufdeckt. In diesem Zusammenhang präsentieren wir DIJA, die erste systematische Studie und Gefängnisausbruchs-Angriffsstruktur, die die einzigartigen Sicherheitsschwächen von dLLMs ausnutzt. Insbesondere konstruiert unser vorgeschlagenes DIJA feindselige maskierte Textanfragen, die die Textgenerierungsmechanismen von dLLMs nutzen, nämlich bidirektionales Modellieren und paralleles Decoding. Das bidirektionale Modellieren veranlasst das Modell, für maskierte Bereiche kontextuell konsistente Ausgaben zu erzeugen, auch wenn diese schädlich sind, während paralleles Decoding die dynamische Filterung und Ablehnung unsicherer Inhalte einschränkt. Dies führt dazu, dass Standard-Ausrichtungsmechanismen versagen und schädliche Ergänzungen in ausrichtungsoptimierte dLLMs ermöglicht werden, selbst dann, wenn schädliches Verhalten oder unsichere Anweisungen direkt im Prompt sichtbar sind. Durch umfassende Experimente zeigen wir nach, dass DIJA bestehende Gefängnisausbruchsmethoden erheblich übertrifft und eine bisher übersehene Bedrohungsoberfläche in den Architekturen von dLLMs aufdeckt. Bemerkenswerterweise erreicht unsere Methode bis zu 100 % keyword-basierte ASR (Automatic Speech Recognition) auf Dream-Instruct und übertreffen den stärksten früheren Baseline-Algorithmus ReNeLLM um bis zu 78,5 % bei evaluator-basierter ASR (Automated Success Rate) auf JailbreakBench sowie um 37,7 Punkte im StrongREJECT-Score. Dabei ist keine Umformulierung oder Versteckung von schädlichen Inhalten im Gefängnisausbruchsprompt erforderlich. Unsere Ergebnisse unterstreichen die dringende Notwendigkeit einer Neubewertung der Sicherheitsausrichtung in dieser neuen Klasse von Sprachmodellen. Der Quellcode ist unter https://github.com/ZichenWen1/DIJA verfügbar.