vor 5 Tagen

COREVQA: Ein Benchmark für visuelle Fragebeantwortung mit Beobachtung und Schlussfolgerung durch die Masse

Ishant Chintapatla, Kazuma Choji, Naaisha Agarwal, Andrew Lin, Hannah You, Charles Duong, et al

Abstract

In jüngster Zeit wurden zahlreiche Benchmarks und Datensätze entwickelt, um Vision-Language-Modelle (VLMs) anhand von Visual-Question-Answering-(VQA)-Paaren zu evaluieren, wobei die Modelle signifikante Fortschritte in der Genauigkeit zeigten. Allerdings testen diese Benchmarks selten die Fähigkeit der Modelle, visuelle Implikationen korrekt zu erschließen, beispielsweise Hypothesen auf Basis von Bildern zu bestätigen oder zu widerlegen. Um dieses Defizit zu beheben, stellen wir COREVQA (Crowd Observations and Reasoning Entailment) vor – einen Benchmark mit 5608 Bildern sowie synthetisch generierten wahren bzw. falschen Aussagenpaaren, wobei die Bilder aus dem CrowdHuman-Datensatz stammen und darauf abzielen, komplexe visuelle Schlussfolgerungssituationen in überfüllten Szenen zu provozieren. Unsere Ergebnisse zeigen, dass selbst die leistungsstärksten VLMs eine Genauigkeit unter 80 % erreichen, während andere Modelle deutlich schlechter abschneiden (39,98 % bis 69,95 %). Diese erhebliche Leistungsunterschiede offenbaren zentrale Einschränkungen der Fähigkeit von VLMs, bei bestimmten Arten von Bild-Frage-Paaren in überfüllten Szenen zu schlussfolgern.