Command Palette
Search for a command to run...
VQA-E : Explication, élaboration et amélioration de vos réponses aux questions visuelles
VQA-E : Explication, élaboration et amélioration de vos réponses aux questions visuelles
Li Qing Tao Qingyi Joty Shafiq Cai Jianfei Luo Jiebo
Résumé
La plupart des travaux existants en réponse aux questions visuelles (VQA) se concentrent sur l’amélioration de la précision des réponses prédites, tout en négligeant les explications. Nous affirmons que l’explication d’une réponse revêt une importance égale, voire supérieure, par rapport à la réponse elle-même, car elle rend le processus de formulation et de réponse aux questions plus compréhensible et traçable. À cet effet, nous proposons une nouvelle tâche, la VQA-E (VQA avec explication), dans laquelle les modèles computationnels doivent générer une explication conjointement avec la réponse prédite. Nous avons d’abord construit un nouveau jeu de données, puis formulé le problème de la VQA-E dans une architecture d’apprentissage multi-tâches. Notre jeu de données VQA-E est automatiquement dérivé du jeu de données VQA v2 en exploitant intelligemment les légendes disponibles. Une étude utilisateurs a été menée afin de valider la qualité des explications synthétisées par notre méthode. Nous montrons quantitativement que la supervision supplémentaire apportée par les explications permet non seulement de produire des phrases textuelles pertinentes justifiant les réponses, mais aussi d’améliorer la performance de prédiction des réponses. Notre modèle surpasse nettement les méthodes de pointe sur le jeu de données VQA v2.