DualVD : un modèle d’encodage dual adaptatif pour une compréhension visuelle profonde dans les dialogues visuels

Contrairement à la tâche de réponse à des questions visuelles (Visual Question Answering), qui consiste à répondre à une seule question concernant une image, le dialogue visuel (Visual Dialogue) implique plusieurs questions couvrant une large gamme de contenus visuels, pouvant porter sur n’importe quels objets, relations ou sémantiques. Le défi principal de cette tâche réside donc dans l’apprentissage d’une représentation d’image plus complète et riche en sémantique, capable d’adapter ses mécanismes d’attention selon les différentes questions posées. Dans cette recherche, nous proposons un nouveau modèle permettant de représenter une image à la fois sous les angles visuel et sémantique. Plus précisément, la perspective visuelle permet de capturer des informations au niveau de l’apparence, telles que les objets et leurs relations, tandis que la perspective sémantique permet à l’agent de comprendre les sémantiques visuelles de haut niveau, allant de l’image globale aux régions locales. Par ailleurs, à partir de ces caractéristiques d’image multi-vues, nous proposons un cadre de sélection de caractéristiques capable d’extraire de manière adaptative, de manière hiérarchique et à un niveau fin, les informations pertinentes par rapport à la question posée. La méthode proposée obtient des résultats de pointe sur les jeux de données standard de dialogue visuel. Plus important encore, en visualisant les valeurs des portes (gate values), nous pouvons déterminer quelle modalité (visuelle ou sémantique) contribue le plus à la réponse actuelle. Cette capacité fournit des éclairages précieux sur la compréhension du fonctionnement cognitif humain dans le cadre du dialogue visuel.