VisualOverload-Datensatz Zum Verständnis Von Szenenbildern
Datum
Größe
Veröffentlichungs-URL
Lizenz
CC BY-SA 4.0
VisualOverload ist ein Datensatz zur Auswertung des Szenenbildverständnisses, der darauf abzielt, das visuelle Verständnis und die Denkfähigkeit des Modells in Bezug auf Details in komplexen Szenen zu untersuchen, ohne auf externes Wissen zurückzugreifen.
Dieser Datensatz enthält 2.720 Frage-Antwort-Paare, bestehend aus gemeinfreien, hochauflösenden Gemälden, die oft mehrere Charaktere, Aktionen, Nebenhandlungen und komplexe Hintergründe aufweisen. Die Fragen werden manuell erstellt, um das Szenenverständnis des Modells umfassend zu testen. Dieser Datensatz eignet sich für die visuelle Frage-Antwort-Forschung, das detaillierte Bildverständnis und die Schlussfolgerung sowie die Bewertung komplexer Szenen mit mehreren Charakteren und Elementen.
