DAVSP: Sicherheitsausrichtung für große visuell-sprachliche Modelle mittels tief ausgerichteter visueller Sicherheits-Prompts
DAVSP: Sicherheitsausrichtung für große visuell-sprachliche Modelle mittels tief ausgerichteter visueller Sicherheits-Prompts
Yitong Zhang Jia Li Liyi Cai Ge Li

Abstract
Große visuell-sprachliche Modelle (Large Vision-Language Models, LVLMs) haben in verschiedenen Anwendungen beeindruckende Fortschritte erzielt, bleiben jedoch anfällig für schadhaften Eingaben, die die visuelle Modalität ausnutzen. Bestehende Ausrichtungsansätze sind typischerweise nicht in der Lage, schädliche Anfragen effektiv zu widerstehen, ohne gleichzeitig die Funktionalität bei harmlosen Eingaben zu bewahren. Um diese Herausforderungen anzugehen, stellen wir DAVSP (Deep Aligned Visual Safety Prompt) vor, das auf zwei zentralen Innovationen basiert. Erstens führen wir den Visual Safety Prompt ein, der einen trainierbaren Padding-Bereich um das Eingabebild herum hinzufügt. Dieser bewahrt die visuellen Merkmale und erweitert den Optimierungsraum. Zweitens schlagen wir Deep Alignment vor, einen neuartigen Ansatz zur Training des Visual Safety Prompt durch Supervision im Aktivierungsraum des Modells. Dadurch wird die inhärente Fähigkeit von LVLMs zur Erkennung schädlicher Anfragen gestärkt und eine tiefere Ausrichtung gegenüber früheren Ansätzen erreicht. Umfangreiche Experimente an fünf Benchmarks auf zwei repräsentativen LVLMs zeigen, dass DAVSP schädliche Anfragen effektiv abwehrt, während gleichzeitig die Funktionalität bei harmlosen Eingaben erhalten bleibt. Darüber hinaus zeichnet sich DAVSP durch eine hervorragende Generierungsfähigkeit über verschiedene Modelle hinweg aus. Ablationsstudien belegen zudem, dass sowohl der Visual Safety Prompt als auch Deep Alignment essenzielle Komponenten sind, die gemeinsam zur insgesamt hohen Wirksamkeit beitragen.
Code-Repositories
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.