HyperAIHyperAI

Command Palette

Search for a command to run...

Réseaux d'Attention Double pour la Résolution de Références Visuelles dans le Dialogue Visuel

Gi-Cheon Kang; Jaeseo Lim; Byoung-Tak Zhang

Résumé

Le dialogue visuel (VisDial) est une tâche qui nécessite qu'un agent d'IA réponde à une série de questions basées sur une image. Contrairement au répondre aux questions visuelles (VQA), cette série de questions doit être capable de capturer un contexte temporel à partir de l'historique du dialogue et d'exploiter des informations ancrées visuellement. Un problème appelé résolution de référence visuelle implique ces défis, obligeant l'agent à résoudre les références ambiguës dans une question donnée et à trouver ces références dans une image donnée. Dans cet article, nous proposons des Réseaux d'Attention Duale (DAN) pour la résolution de référence visuelle. Le DAN se compose de deux types de réseaux d'attention, REFER et FIND. Plus précisément, le module REFER apprend les relations latentes entre une question donnée et l'historique du dialogue en utilisant un mécanisme d'auto-attention. Le module FIND prend en entrée les caractéristiques d'image et les représentations sensibles aux références (c'est-à-dire la sortie du module REFER) et effectue l'ancre visuelle par le biais d'un mécanisme d'attention ascendante. Nous évaluons notre modèle qualitativement et quantitativement sur les jeux de données VisDial v1.0 et v0.9, montrant que le DAN dépasse le modèle précédemment considéré comme l'état de l'art avec une marge significative.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp