Dialogue Visuel

Nous présentons la tâche de Dialogue Visuel, qui nécessite qu'un agent d'IA entretienne un dialogue significatif avec des humains dans une langue conversationnelle naturelle sur du contenu visuel. Plus précisément, étant donné une image, un historique de dialogue et une question concernant l'image, l'agent doit contextualiser la question dans l'image, inférer le contexte à partir de l'historique et répondre à la question de manière précise. Le Dialogue Visuel est suffisamment dissocié d'une tâche en aval spécifique pour servir de test général de l'intelligence machine, tout en étant assez ancré dans la vision pour permettre une évaluation objective des réponses individuelles et un suivi des progrès. Nous avons développé un protocole novateur de collecte de données de chat à deux personnes pour constituer un ensemble de données de Dialogue Visuel à grande échelle (VisDial). La version 0.9 de VisDial a été publiée et contient 1 dialogue avec 10 paires question-réponse sur environ 120 000 images provenant de COCO, soit au total environ 1,2 million de paires question-réponse.Nous introduisons une famille de modèles neuronaux encodeur-décodeur pour le Dialogue Visuel avec 3 encodeurs -- Fusion Tardive, Encodeur Récurent Hiérarchique et Réseau Mémoire -- et 2 décodeurs (génératif et discriminatif), qui surpassent plusieurs baselines sophistiquées. Nous proposons un protocole d'évaluation basé sur la recherche pour le Dialogue Visuel où l'agent d'IA est invité à classer un ensemble de réponses candidates et évalué selon des métriques telles que le rang moyen inverse (mean-reciprocal-rank) de la réponse humaine. Nous quantifions l'écart entre les performances machine et humaine sur la tâche de Dialogue Visuel par le biais d'études réalisées auprès d'humains. En mettant tout cela en œuvre, nous démontrons le premier « chatbot visuel » ! Notre ensemble de données, notre code, nos modèles entraînés et notre chatbot visuel sont disponibles sur https://visualdialog.org