HyperAIHyperAI
il y a 2 mois

Réseaux de Graphes Conditionnés par le Langage pour le Raisonnement Relationnel

Ronghang Hu; Anna Rohrbach; Trevor Darrell; Kate Saenko
Réseaux de Graphes Conditionnés par le Langage pour le Raisonnement Relationnel
Résumé

La résolution de tâches de langage ancré nécessite souvent une réflexion sur les relations entre les objets dans le contexte d'une tâche donnée. Par exemple, pour répondre à la question « Quelle est la couleur de la tasse sur la assiette ? », il faut vérifier la couleur de la tasse spécifique qui satisfait la relation « sur » par rapport à l'assiette. Des travaux récents ont proposé diverses méthodes capables de raisonnement relationnel complexe. Cependant, la plupart de leur puissance réside dans la structure d'inférence, tandis que la scène est représentée par des caractéristiques d'apparence locales simples. Dans cet article, nous adoptons une approche alternative et construisons des représentations contextualisées pour les objets dans une scène visuelle afin de soutenir le raisonnement relationnel. Nous proposons un cadre général de Réseaux de Graphes Conditionnés par le Langage (LCGN), où chaque nœud représente un objet et est décrit par une représentation sensible au contexte issue d'objets associés grâce à des passes de messages itératifs conditionnés par l'entrée textuelle. Par exemple, en se basant sur la relation « sur » avec l'assiette, l'objet « tasse » reçoit des messages de l'objet « assiette » pour mettre à jour sa représentation en « tasse sur l'assiette », ce qui peut être facilement traité par un classificateur simple pour prédire la réponse. Nos expériences montrent que notre approche LCGN soutient efficacement le raisonnement relationnel et améliore les performances sur plusieurs tâches et jeux de données. Notre code est disponible à l'adresse http://ronghanghu.com/lcgn.