QLEVR: Ein Diagnosedatensatz für quantifizierende Sprache und elementare visuelle Schlussfolgerung

Synthetische Datensätze wurden erfolgreich eingesetzt, um visuelle Frage-Antwort-Datensätze hinsichtlich ihrer Schlussfolgerungsfähigkeiten zu untersuchen. CLEVR (johnson2017clevr), beispielsweise, testet eine Vielzahl visueller Schlussfolgerungsfähigkeiten. Die Fragen in CLEVR konzentrieren sich auf Vergleiche von Formen, Farben und Größen, numerische Schlussfolgerungen sowie Aussagen über Existenz. In dieser Arbeit wird ein minimal verzerrender, diagnostischer visueller Frage-Antwort-Datensatz namens QLEVR vorgestellt, der über einfache Existenz- und numerische Quantifizierungen hinausgeht und sich auf komplexere Quantoren und deren Kombinationen konzentriert, beispielsweise die Frage, ob es mehr als zwei rote Kugeln gibt, die kleiner sind als mindestens drei blaue Kugeln in einem Bild. Wir beschreiben die Erstellung des Datensatzes und präsentieren eine erste Evaluation state-of-the-art-Modelle für visuelle Frage-Antwort-Aufgaben, wobei sich zeigt, dass QLEVR eine erhebliche Herausforderung für unsere derzeitigen Modelle darstellt. Code und Datensatz sind unter https://github.com/zechenli03/QLEVR verfügbar.