HyperAIHyperAI
il y a 2 mois

VQA-E : Expliquer, Développer et Améliorer Vos Réponses aux Questions Visuelles

Li, Qing ; Tao, Qingyi ; Joty, Shafiq ; Cai, Jianfei ; Luo, Jiebo
VQA-E : Expliquer, Développer et Améliorer Vos Réponses aux Questions Visuelles
Résumé

La plupart des travaux existants en réponse à des questions visuelles (RVQ) sont dédiés à l'amélioration de la précision des réponses prédites, tout en négligeant les explications. Nous soutenons que l'explication d'une réponse est d'une importance égale, voire supérieure, par rapport à la réponse elle-même, car elle rend le processus de questionnement et de réponse plus compréhensible et traçable. À cette fin, nous proposons une nouvelle tâche appelée RVQ-E (RVQ avec Explication), où les modèles computationnels doivent générer une explication en même temps que la réponse prédite. Nous construisons d'abord un nouveau jeu de données, puis nous formulons le problème RVQ-E dans une architecture d'apprentissage multitâche. Notre jeu de données RVQ-E est automatiquement dérivé du jeu de données RVQ v2 en exploitant intelligemment les légendes disponibles. Nous avons mené une étude utilisateur pour valider la qualité des explications synthétisées par notre méthode. Nous montrons quantitativement que la supervision supplémentaire fournie par les explications peut non seulement produire des phrases textuelles pertinentes pour justifier les réponses, mais aussi améliorer les performances de prédiction des réponses. Notre modèle surpasse nettement les méthodes de pointe actuelles sur le jeu de données RVQ v2.