il y a 2 mois

Raisonnement sur les dialogues visuels avec des observations structurées et partielles

Zilong Zheng; Wenguan Wang; Siyuan Qi; Song-Chun Zhu

Résumé

Nous proposons un modèle novateur pour traiter la tâche de Dialogue Visuel qui présente des structures de dialogue complexes. Pour obtenir une réponse raisonnable basée sur la question actuelle et l'historique du dialogue, il est essentiel de prendre en compte les dépendances sémantiques sous-jacentes entre les entités du dialogue. Dans cet article, nous formalisons explicitement cette tâche comme une inférence dans un modèle graphique avec des nœuds partiellement observés et des structures graphiques inconnues (relations dans le dialogue). Les entités de dialogue données sont considérées comme les nœuds observés. La réponse à une question donnée est représentée par un nœud dont la valeur est manquante. Nous introduisons d'abord un algorithme d'Expectation-Maximization pour inférer à la fois les structures de dialogue sous-jacentes et les valeurs manquantes des nœuds (réponses souhaitées). Sur cette base, nous proposons ensuite une solution de réseau neuronal graphique (GNN) différentiable qui approche ce processus. Les résultats expérimentaux sur les jeux de données VisDial et VisDial-Q montrent que notre modèle surpassent les méthodes comparatives. Il a également été constaté que notre méthode peut inférer la structure de dialogue sous-jacente pour améliorer le raisonnement dialogique.