VisDial Bilddialog-Datensatz
Datum
Größe
Veröffentlichungs-URL
Lizenz
CC BY 4.0
Kategorien

VisDial, der vollständige Name von Visual Dialog, ist ein Datensatz, der manuelle Annotationsprobleme basierend auf Bildern aus dem MS COCO-Datensatz enthält.
Der Datensatz wurde entwickelt, indem zwei Probanden über ein Bild auf Amazon Mechanical Turk chatten mussten. Einer von ihnen fungiert als Fragesteller und der andere als Antwortender. Der Fragesteller kann nur die Textbeschreibung des Bildes sehen (also die Bildunterschrift aus dem MS COCO-Datensatz), das Originalbild ist für den Fragesteller nicht sichtbar. Ihre Aufgabe bestand darin, Fragen zu diesem Bild zu stellen, um sich „die Szene besser vorstellen zu können“. Der Befragte sieht das Bild, die Bildunterschrift und beantwortet die vom Fragesteller gestellte Frage. Die beiden können das Gespräch fortsetzen, indem sie Fragen stellen und beantworten, bis zu 10 Runden.
VisDial v1.0 enthält:
- Trainingssatz: 123.287 Bilder, 10 Dialogrunden pro Bild;
- Validierungssatz: 2.064 Bilder, 10 Dialogrunden pro Bild;
- Testsatz: 8.000 Bilder, 1 Dialogrunde pro Bild.