HyperAIHyperAI

Command Palette

Search for a command to run...

QLEVR: Ein Diagnosedatensatz für quantifizierende Sprache und elementare visuelle Schlussfolgerung

Zechen Li Anders Søgaard

Zusammenfassung

Synthetische Datensätze wurden erfolgreich eingesetzt, um visuelle Frage-Antwort-Datensätze hinsichtlich ihrer Schlussfolgerungsfähigkeiten zu untersuchen. CLEVR (johnson2017clevr), beispielsweise, testet eine Vielzahl visueller Schlussfolgerungsfähigkeiten. Die Fragen in CLEVR konzentrieren sich auf Vergleiche von Formen, Farben und Größen, numerische Schlussfolgerungen sowie Aussagen über Existenz. In dieser Arbeit wird ein minimal verzerrender, diagnostischer visueller Frage-Antwort-Datensatz namens QLEVR vorgestellt, der über einfache Existenz- und numerische Quantifizierungen hinausgeht und sich auf komplexere Quantoren und deren Kombinationen konzentriert, beispielsweise die Frage, ob es mehr als zwei rote Kugeln gibt, die kleiner sind als mindestens drei blaue Kugeln in einem Bild. Wir beschreiben die Erstellung des Datensatzes und präsentieren eine erste Evaluation state-of-the-art-Modelle für visuelle Frage-Antwort-Aufgaben, wobei sich zeigt, dass QLEVR eine erhebliche Herausforderung für unsere derzeitigen Modelle darstellt. Code und Datensatz sind unter https://github.com/zechenli03/QLEVR verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp