HyperAIHyperAI

Command Palette

Search for a command to run...

COREVQA: Ein Benchmark für visuelle Fragebeantwortung mit Beobachtung und Schlussfolgerung durch die Masse

Ishant Chintapatla Kazuma Choji Naaisha Agarwal Andrew Lin Hannah You Charles Duong et al

Zusammenfassung

In jüngster Zeit wurden zahlreiche Benchmarks und Datensätze entwickelt, um Vision-Language-Modelle (VLMs) anhand von Visual-Question-Answering-(VQA)-Paaren zu evaluieren, wobei die Modelle signifikante Fortschritte in der Genauigkeit zeigten. Allerdings testen diese Benchmarks selten die Fähigkeit der Modelle, visuelle Implikationen korrekt zu erschließen, beispielsweise Hypothesen auf Basis von Bildern zu bestätigen oder zu widerlegen. Um dieses Defizit zu beheben, stellen wir COREVQA (Crowd Observations and Reasoning Entailment) vor – einen Benchmark mit 5608 Bildern sowie synthetisch generierten wahren bzw. falschen Aussagenpaaren, wobei die Bilder aus dem CrowdHuman-Datensatz stammen und darauf abzielen, komplexe visuelle Schlussfolgerungssituationen in überfüllten Szenen zu provozieren. Unsere Ergebnisse zeigen, dass selbst die leistungsstärksten VLMs eine Genauigkeit unter 80 % erreichen, während andere Modelle deutlich schlechter abschneiden (39,98 % bis 69,95 %). Diese erhebliche Leistungsunterschiede offenbaren zentrale Einschränkungen der Fähigkeit von VLMs, bei bestimmten Arten von Bild-Frage-Paaren in überfüllten Szenen zu schlussfolgern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
COREVQA: Ein Benchmark für visuelle Fragebeantwortung mit Beobachtung und Schlussfolgerung durch die Masse | Paper | HyperAI