HyperAIHyperAI

Command Palette

Search for a command to run...

DualVD : un modèle d’encodage dual adaptatif pour une compréhension visuelle profonde dans les dialogues visuels

Xiaoze Jiang Jing Yu Zengchang Qin Yingying Zhuang Xingxing Zhang Yue Hu Qi Wu

Résumé

Contrairement à la tâche de réponse à des questions visuelles (Visual Question Answering), qui consiste à répondre à une seule question concernant une image, le dialogue visuel (Visual Dialogue) implique plusieurs questions couvrant une large gamme de contenus visuels, pouvant porter sur n’importe quels objets, relations ou sémantiques. Le défi principal de cette tâche réside donc dans l’apprentissage d’une représentation d’image plus complète et riche en sémantique, capable d’adapter ses mécanismes d’attention selon les différentes questions posées. Dans cette recherche, nous proposons un nouveau modèle permettant de représenter une image à la fois sous les angles visuel et sémantique. Plus précisément, la perspective visuelle permet de capturer des informations au niveau de l’apparence, telles que les objets et leurs relations, tandis que la perspective sémantique permet à l’agent de comprendre les sémantiques visuelles de haut niveau, allant de l’image globale aux régions locales. Par ailleurs, à partir de ces caractéristiques d’image multi-vues, nous proposons un cadre de sélection de caractéristiques capable d’extraire de manière adaptative, de manière hiérarchique et à un niveau fin, les informations pertinentes par rapport à la question posée. La méthode proposée obtient des résultats de pointe sur les jeux de données standard de dialogue visuel. Plus important encore, en visualisant les valeurs des portes (gate values), nous pouvons déterminer quelle modalité (visuelle ou sémantique) contribue le plus à la réponse actuelle. Cette capacité fournit des éclairages précieux sur la compréhension du fonctionnement cognitif humain dans le cadre du dialogue visuel.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp