Visual7W-Datensatz Für Visuelle Fragen Und Antworten
Datum
Größe
Veröffentlichungs-URL
Lizenz
其他
Kategorien

Visual7W ist ein Datensatz zum Verständnis von Bildinhalten. Es führt visuelle Frage- und Antwortaufgaben durch, indem es Bildbereiche im Text und ihre Assoziationen beschreibt. Der Datensatz enthält nicht nur das Bild selbst, sondern auch Fragen und Antworten zum Inhalt der Bildregion.
Visual7W ist eine Teilmenge des Visual Genome-Datensatzes und enthält 47.300 COCO-Datensatzbilder, 327.929 Frage-Antwort-Paare, 1.311.756 von Menschen erstellte Multiple-Choice-Fragen und 561.459 Objektbegründungen, die 36.579 Kategorien abdecken.
Die Fragen von Visual7W bestehen hauptsächlich aus Was, Wo, Wie, Wann, Wer, Warum und Welchem. Die Fragen sind im Multiple-Choice-Format und jede Frage hat vier mögliche Antworten.