HyperAIHyperAI

Command Palette

Search for a command to run...

Offene VQA-Benchmarking von Vision-Sprach-Modellen durch Ausnutzung von Klassifikationsdatensätzen und ihrer semantischen Hierarchie

Simon Ging María A. Bravo Thomas Brox

Zusammenfassung

Die Bewertung von textgenerativen Vision-Language-Modellen ist eine herausfordernde, aber entscheidende Aufgabe. Indem wir die Einschränkungen bestehender Visual Question Answering (VQA)-Benchmarks adressieren und innovative Evaluationsmethoden vorschlagen, strebt unsere Forschung an, das Verständnis dieser Modelle zu vertiefen. Wir schlagen ein neues VQA-Benchmark vor, das auf bekannten visuellen Klassifikationsdatensätzen basiert und eine detaillierte Bewertung von textgenerativen Vision-Language-Modellen ermöglicht sowie deren Vergleich mit diskriminativen Vision-Language-Modellen. Um die Beurteilung grober Antworten bei feinkörnigen Klassifikationsaufgaben zu verbessern, empfehlen wir die Verwendung der semantischen Hierarchie des Labelraums, um automatisch generierte Nachfragefragen zur Ground-Truth-Kategorie zu stellen. Schließlich vergleichen wir traditionelle NLP- und LLM-basierte Metriken für das Problem der Bewertung von Modellvorhersagen anhand von Ground-Truth-Antworten. Wir führen eine menschliche Evaluationsstudie durch, auf deren Grundlage wir uns für die endgültige Metrik entscheiden. Wir wenden unseren Benchmark auf eine Reihe von Vision-Language-Modellen an und zeigen eine detaillierte Vergleichsanalyse ihrer Fähigkeiten in der Objekt-, Aktion- und Attributklassifikation. Unsere Beiträge zielen darauf ab, die Grundlage für präzisere und bedeutsamere Bewertungen zu legen, was wiederum gezielten Fortschritt im spannenden Bereich der Vision-Language-Modellierung erleichtert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp