Ensemble De Données De Dialogue D'images VisDial
Date
Taille
URL de publication
Licence
CC BY 4.0
Catégories

VisDial, nom complet de Visual Dialog, est un ensemble de données contenant des problèmes d'annotation manuelle basés sur des images de l'ensemble de données MS COCO.
L'ensemble de données a été développé en demandant à deux sujets de discuter d'une image sur Amazon Mechanical Turk. L’un d’eux agit comme celui qui pose la question et l’autre comme celui qui répond. L'interrogateur ne peut voir que la description textuelle de l'image (c'est-à-dire la légende de l'image de l'ensemble de données MS COCO), et l'image d'origine n'est pas visible pour l'interrogateur. Leur tâche était de poser des questions autour de cette image afin de « mieux imaginer la scène ». Le répondant voit l’image, la légende et répond à la question posée par l’interrogateur. Les deux peuvent poursuivre la conversation en posant et en répondant à des questions, jusqu'à 10 tours.
VisDial v1.0 comprend :
- Ensemble d'entraînement : 1 23 287 images, 10 tours de dialogue par image ;
- Ensemble de validation : 2 064 images, 10 tours de dialogue par image ;
- Ensemble de test : 8 000 images, 1 tour de dialogue par image.