vor 2 Monaten

Offene VQA-Benchmarking von Vision-Sprach-Modellen durch Ausnutzung von Klassifikationsdatensätzen und ihrer semantischen Hierarchie

Ging, Simon ; Bravo, María A. ; Brox, Thomas

Abstract

Die Bewertung von textgenerativen Vision-Language-Modellen ist eine herausfordernde, aber entscheidende Aufgabe. Indem wir die Einschränkungen bestehender Visual Question Answering (VQA)-Benchmarks adressieren und innovative Evaluationsmethoden vorschlagen, strebt unsere Forschung an, das Verständnis dieser Modelle zu vertiefen. Wir schlagen ein neues VQA-Benchmark vor, das auf bekannten visuellen Klassifikationsdatensätzen basiert und eine detaillierte Bewertung von textgenerativen Vision-Language-Modellen ermöglicht sowie deren Vergleich mit diskriminativen Vision-Language-Modellen. Um die Beurteilung grober Antworten bei feinkörnigen Klassifikationsaufgaben zu verbessern, empfehlen wir die Verwendung der semantischen Hierarchie des Labelraums, um automatisch generierte Nachfragefragen zur Ground-Truth-Kategorie zu stellen. Schließlich vergleichen wir traditionelle NLP- und LLM-basierte Metriken für das Problem der Bewertung von Modellvorhersagen anhand von Ground-Truth-Antworten. Wir führen eine menschliche Evaluationsstudie durch, auf deren Grundlage wir uns für die endgültige Metrik entscheiden. Wir wenden unseren Benchmark auf eine Reihe von Vision-Language-Modellen an und zeigen eine detaillierte Vergleichsanalyse ihrer Fähigkeiten in der Objekt-, Aktion- und Attributklassifikation. Unsere Beiträge zielen darauf ab, die Grundlage für präzisere und bedeutsamere Bewertungen zu legen, was wiederum gezielten Fortschritt im spannenden Bereich der Vision-Language-Modellierung erleichtert.