HyperAIHyperAI

Command Palette

Search for a command to run...

vor 7 Tagen

MVI-Bench: Ein umfassender Benchmark zur Bewertung der Robustheit gegenüber irreführenden visuellen Eingaben in LVLMs

Huiyi Chen Jiawei Peng Dehai Min Changchang Sun Kaijie Chen Yan Yan Xu Yang Lu Cheng

MVI-Bench: Ein umfassender Benchmark zur Bewertung der Robustheit gegenüber irreführenden visuellen Eingaben in LVLMs

Abstract

Die Bewertung der Robustheit von Large Vision-Language-Modellen (LVLMs) ist entscheidend für ihre kontinuierliche Entwicklung und verantwortungsvolle Anwendung in realen Anwendungsszenarien. Bestehende Robustheitsbenchmarks konzentrieren sich jedoch typischerweise auf Halluzinationen oder irreführende textuelle Eingaben, während die gleichfalls kritische Herausforderung irreführender visueller Eingaben bei der Beurteilung der visuellen Verständnisfähigkeit weitgehend vernachlässigt wird. Um diese wichtige Lücke zu schließen, stellen wir MVI-Bench vor – den ersten umfassenden Benchmark, der speziell dafür entwickelt wurde, zu evaluieren, wie irreführende visuelle Eingaben die Robustheit von LVLMs beeinträchtigen. Auf der Grundlage grundlegender visueller Primitiven orientiert sich die Gestaltung von MVI-Bench an drei hierarchischen Ebenen irreführender visueller Eingaben: visuelles Konzept, visuelles Merkmal und visueller Zusammenhang. Anhand dieser Klassifikation identifizieren wir sechs repräsentative Kategorien und sammeln 1.248 expertenannotationierte VQA-Instanzen. Um eine fein granulare Bewertung der Robustheit zu ermöglichen, führen wir außerdem MVI-Sensitivity ein, eine neuartige Metrik, die die Robustheit von LVLMs auf einer feinen Ebene charakterisiert. Empirische Ergebnisse an 18 state-of-the-art LVLMs offenbaren erhebliche Anfälligkeiten gegenüber irreführenden visuellen Eingaben. Unser detaillierter Analyseansatz auf MVI-Bench liefert praxisnahe Erkenntnisse, die die Entwicklung zuverlässigerer und robusterer LVLMs unterstützen können. Der Benchmark und der zugehörige Code können unter https://github.com/chenyil6/MVI-Bench abgerufen werden.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MVI-Bench: Ein umfassender Benchmark zur Bewertung der Robustheit gegenüber irreführenden visuellen Eingaben in LVLMs | Forschungsarbeiten | HyperAI