HyperAIHyperAI

Command Palette

Search for a command to run...

Résolution de la Co-référence Visuelle dans le Dialogue Visuel à l'Aide des Réseaux de Modules Neuronaux

Satwik Kottur; José M. F. Moura; Devi Parikh; Dhruv Batra; Marcus Rohrbach

Résumé

Le dialogue visuel implique de répondre à une série de questions basées sur une image, en utilisant l'historique du dialogue comme contexte. Outre les défis rencontrés dans le domaine de la réponse aux questions visuelles (VQA), qui peut être considérée comme un dialogue en un tour, le dialogue visuel comporte plusieurs autres difficultés. Nous nous concentrons sur un problème particulier appelé résolution de co-référence visuelle, qui consiste à déterminer quels mots, généralement des groupes nominaux et des pronoms, font référence à la même entité/instance d'objet dans une image. Cela est crucial, notamment pour les pronoms (par exemple, « it »), car l'agent de dialogue doit d'abord les relier à une co-référence précédente (par exemple, « boat »), avant de pouvoir s'appuyer sur l'ancre visuelle de la co-référence « boat » pour raisonner sur le pronom « it ».Les travaux antérieurs (dans le domaine du dialogue visuel) modélisent la résolution de co-référence visuelle soit (a) implicitement par l'intermédiaire d'un réseau mémoire sur l'historique, soit (b) à un niveau grossier pour l'ensemble de la question ; mais pas explicitement au niveau granulaire des phrases. Dans cette étude, nous proposons une architecture de réseau neuronal modulaire pour le dialogue visuel en introduisant deux nouveaux modules - Référencer et Exclure - qui effectuent une résolution explicite et ancrée de co-référence à un niveau plus fin des mots. Nous démontrons l'efficacité de notre modèle sur MNIST Dialog, un ensemble de données visuellement simple mais complexe en termes de co-référence, en atteignant une précision quasi-parfaite, ainsi que sur VisDial, un grand et difficile ensemble de données de dialogue visuel sur des images réelles, où notre modèle surpassent les autres approches et se montre plus interprétable, ancré et cohérent qualitativement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp