VisDial Bilddialog-Datensatz
Datum
Größe
Veröffentlichungs-URL
Paper-URL
Lizenz
CC BY 4.0

VisDial, der vollständige Name von Visual Dialog, ist ein Datensatz, der manuelle Annotationsprobleme basierend auf Bildern aus dem MS COCO-Datensatz enthält.
Der Datensatz wurde entwickelt, indem zwei Probanden über ein Bild auf Amazon Mechanical Turk chatten mussten. Einer von ihnen fungiert als Fragesteller und der andere als Antwortender. Der Fragesteller kann nur die Textbeschreibung des Bildes sehen (also die Bildunterschrift aus dem MS COCO-Datensatz), das Originalbild ist für den Fragesteller nicht sichtbar. Ihre Aufgabe bestand darin, Fragen zu diesem Bild zu stellen, um sich „die Szene besser vorstellen zu können“. Der Befragte sieht das Bild, die Bildunterschrift und beantwortet die vom Fragesteller gestellte Frage. Die beiden können das Gespräch fortsetzen, indem sie Fragen stellen und beantworten, bis zu 10 Runden.
VisDial v1.0 enthält:
- Trainingssatz: 123.287 Bilder, 10 Dialogrunden pro Bild;
- Validierungssatz: 2.064 Bilder, 10 Dialogrunden pro Bild;
- Testsatz: 8.000 Bilder, 1 Dialogrunde pro Bild.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.