HyperAIHyperAI

Command Palette

Search for a command to run...

Raisonnement sur les dialogues visuels avec des observations structurées et partielles

Zilong Zheng∗ Wenguan Wang∗ Siyuan Qi∗ Song-Chun Zhu

Résumé

Nous proposons un modèle novateur pour traiter la tâche de Dialogue Visuel qui présente des structures de dialogue complexes. Pour obtenir une réponse raisonnable basée sur la question actuelle et l'historique du dialogue, il est essentiel de prendre en compte les dépendances sémantiques sous-jacentes entre les entités du dialogue. Dans cet article, nous formalisons explicitement cette tâche comme une inférence dans un modèle graphique avec des nœuds partiellement observés et des structures graphiques inconnues (relations dans le dialogue). Les entités de dialogue données sont considérées comme les nœuds observés. La réponse à une question donnée est représentée par un nœud dont la valeur est manquante. Nous introduisons d'abord un algorithme d'Expectation-Maximization pour inférer à la fois les structures de dialogue sous-jacentes et les valeurs manquantes des nœuds (réponses souhaitées). Sur cette base, nous proposons ensuite une solution de réseau neuronal graphique (GNN) différentiable qui approche ce processus. Les résultats expérimentaux sur les jeux de données VisDial et VisDial-Q montrent que notre modèle surpassent les méthodes comparatives. Il a également été constaté que notre méthode peut inférer la structure de dialogue sous-jacente pour améliorer le raisonnement dialogique.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Raisonnement sur les dialogues visuels avec des observations structurées et partielles | Articles | HyperAI