HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole
vor 4 Tagen

DAVSP: Sicherheitsausrichtung für große visuell-sprachliche Modelle mittels tief ausgerichteter visueller Sicherheits-Prompts

Yitong Zhang Jia Li Liyi Cai Ge Li

DAVSP: Sicherheitsausrichtung für große visuell-sprachliche Modelle mittels tief ausgerichteter visueller Sicherheits-Prompts

Abstract

Große visuell-sprachliche Modelle (Large Vision-Language Models, LVLMs) haben in verschiedenen Anwendungen beeindruckende Fortschritte erzielt, bleiben jedoch anfällig für schadhaften Eingaben, die die visuelle Modalität ausnutzen. Bestehende Ausrichtungsansätze sind typischerweise nicht in der Lage, schädliche Anfragen effektiv zu widerstehen, ohne gleichzeitig die Funktionalität bei harmlosen Eingaben zu bewahren. Um diese Herausforderungen anzugehen, stellen wir DAVSP (Deep Aligned Visual Safety Prompt) vor, das auf zwei zentralen Innovationen basiert. Erstens führen wir den Visual Safety Prompt ein, der einen trainierbaren Padding-Bereich um das Eingabebild herum hinzufügt. Dieser bewahrt die visuellen Merkmale und erweitert den Optimierungsraum. Zweitens schlagen wir Deep Alignment vor, einen neuartigen Ansatz zur Training des Visual Safety Prompt durch Supervision im Aktivierungsraum des Modells. Dadurch wird die inhärente Fähigkeit von LVLMs zur Erkennung schädlicher Anfragen gestärkt und eine tiefere Ausrichtung gegenüber früheren Ansätzen erreicht. Umfangreiche Experimente an fünf Benchmarks auf zwei repräsentativen LVLMs zeigen, dass DAVSP schädliche Anfragen effektiv abwehrt, während gleichzeitig die Funktionalität bei harmlosen Eingaben erhalten bleibt. Darüber hinaus zeichnet sich DAVSP durch eine hervorragende Generierungsfähigkeit über verschiedene Modelle hinweg aus. Ablationsstudien belegen zudem, dass sowohl der Visual Safety Prompt als auch Deep Alignment essenzielle Komponenten sind, die gemeinsam zur insgesamt hohen Wirksamkeit beitragen.

Code-Repositories

zhangyitonggg/davsp
Offiziell
pytorch

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
DAVSP: Sicherheitsausrichtung für große visuell-sprachliche Modelle mittels tief ausgerichteter visueller Sicherheits-Prompts | Forschungsarbeiten | HyperAI