vor 2 Monaten

Zusammenfassung

Große visuell-sprachliche Modelle (Large Vision-Language Models, LVLMs) haben in verschiedenen Anwendungen beeindruckende Fortschritte erzielt, bleiben jedoch anfällig für schadhaften Eingaben, die die visuelle Modalität ausnutzen. Bestehende Ausrichtungsansätze sind typischerweise nicht in der Lage, schädliche Anfragen effektiv zu widerstehen, ohne gleichzeitig die Funktionalität bei harmlosen Eingaben zu bewahren. Um diese Herausforderungen anzugehen, stellen wir DAVSP (Deep Aligned Visual Safety Prompt) vor, das auf zwei zentralen Innovationen basiert. Erstens führen wir den Visual Safety Prompt ein, der einen trainierbaren Padding-Bereich um das Eingabebild herum hinzufügt. Dieser bewahrt die visuellen Merkmale und erweitert den Optimierungsraum. Zweitens schlagen wir Deep Alignment vor, einen neuartigen Ansatz zur Training des Visual Safety Prompt durch Supervision im Aktivierungsraum des Modells. Dadurch wird die inhärente Fähigkeit von LVLMs zur Erkennung schädlicher Anfragen gestärkt und eine tiefere Ausrichtung gegenüber früheren Ansätzen erreicht. Umfangreiche Experimente an fünf Benchmarks auf zwei repräsentativen LVLMs zeigen, dass DAVSP schädliche Anfragen effektiv abwehrt, während gleichzeitig die Funktionalität bei harmlosen Eingaben erhalten bleibt. Darüber hinaus zeichnet sich DAVSP durch eine hervorragende Generierungsfähigkeit über verschiedene Modelle hinweg aus. Ablationsstudien belegen zudem, dass sowohl der Visual Safety Prompt als auch Deep Alignment essenzielle Komponenten sind, die gemeinsam zur insgesamt hohen Wirksamkeit beitragen.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 2 Monaten

Multimodal

Überwachtes Feinabstimmen

Visuelle Fragebeantwortung

Ansatz/Rahmenwerk

Multimodal

Aufgabe

Yitong Zhang Jia Li Liyi Cai Ge Li

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 2 Monaten

Multimodal

Überwachtes Feinabstimmen

Visuelle Fragebeantwortung

Ansatz/Rahmenwerk

Multimodal

Aufgabe

Yitong Zhang Jia Li Liyi Cai Ge Li

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

DAVSP: Sicherheitsausrichtung für große visuell-sprachliche Modelle mittels tief ausgerichteter visueller Sicherheits-Prompts

Yitong Zhang Jia Li Liyi Cai Ge Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

DAVSP: Sicherheitsausrichtung für große visuell-sprachliche Modelle mittels tief ausgerichteter visueller Sicherheits-Prompts

Yitong Zhang Jia Li Liyi Cai Ge Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

DAVSP: Sicherheitsausrichtung für große visuell-sprachliche Modelle mittels tief ausgerichteter visueller Sicherheits-Prompts

Yitong Zhang Jia Li Liyi Cai Ge Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters