HyperAIHyperAI

Command Palette

Search for a command to run...

Dialogue Visuel

Abhishek Das; Satwik Kottur; Khushi Gupta; Avi Singh; Deshraj Yadav; José M. F. Moura; Devi Parikh; Dhruv Batra

Résumé

Nous présentons la tâche de Dialogue Visuel, qui nécessite qu'un agent d'IA entretienne un dialogue significatif avec des humains dans une langue conversationnelle naturelle sur du contenu visuel. Plus précisément, étant donné une image, un historique de dialogue et une question concernant l'image, l'agent doit contextualiser la question dans l'image, inférer le contexte à partir de l'historique et répondre à la question de manière précise. Le Dialogue Visuel est suffisamment dissocié d'une tâche en aval spécifique pour servir de test général de l'intelligence machine, tout en étant assez ancré dans la vision pour permettre une évaluation objective des réponses individuelles et un suivi des progrès. Nous avons développé un protocole novateur de collecte de données de chat à deux personnes pour constituer un ensemble de données de Dialogue Visuel à grande échelle (VisDial). La version 0.9 de VisDial a été publiée et contient 1 dialogue avec 10 paires question-réponse sur environ 120 000 images provenant de COCO, soit au total environ 1,2 million de paires question-réponse.Nous introduisons une famille de modèles neuronaux encodeur-décodeur pour le Dialogue Visuel avec 3 encodeurs -- Fusion Tardive, Encodeur Récurent Hiérarchique et Réseau Mémoire -- et 2 décodeurs (génératif et discriminatif), qui surpassent plusieurs baselines sophistiquées. Nous proposons un protocole d'évaluation basé sur la recherche pour le Dialogue Visuel où l'agent d'IA est invité à classer un ensemble de réponses candidates et évalué selon des métriques telles que le rang moyen inverse (mean-reciprocal-rank) de la réponse humaine. Nous quantifions l'écart entre les performances machine et humaine sur la tâche de Dialogue Visuel par le biais d'études réalisées auprès d'humains. En mettant tout cela en œuvre, nous démontrons le premier « chatbot visuel » ! Notre ensemble de données, notre code, nos modèles entraînés et notre chatbot visuel sont disponibles sur https://visualdialog.org


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Dialogue Visuel | Articles | HyperAI