il y a 2 mois

Faire en sorte que le V compte dans la VQA : Élever le rôle de la compréhension des images dans le répondre aux questions visuelles

Yash Goyal; Tejas Khot; Douglas Summers-Stay; Dhruv Batra; Devi Parikh

Résumé

Les problèmes à l'intersection de la vision et du langage sont d'une importance considérable, tant en tant que questions de recherche complexes qu'en raison des nombreuses applications qu'ils permettent. Cependant, la structure inhérente de notre monde et les biais dans notre langage tendent à être un signal plus simple pour l'apprentissage que les modalités visuelles, ce qui entraîne des modèles qui ignorent les informations visuelles, donnant ainsi une fausse impression de leurs capacités.Nous proposons de contrer ces a priori linguistiques pour la tâche de Réponse aux Questions Visuelles (RVQ) et de faire en sorte que la vision (le V dans RVQ) compte réellement ! Plus précisément, nous équilibrons le jeu de données RVQ populaire en collectant des images complémentaires de manière à ce que chaque question dans notre jeu de données équilibré soit associée non pas à une seule image, mais plutôt à un couple d'images similaires qui aboutissent à deux réponses différentes à la question. Notre jeu de données est par construction plus équilibré que le jeu de données RVQ original et contient environ deux fois plus de paires image-question. Notre jeu de données équilibré complet est disponible au public sur www.visualqa.org dans le cadre de la deuxième itération du Jeu de Données et du Défi Réponse aux Questions Visuelles (RVQ v2.0).Nous avons également évalué plusieurs modèles RVQ d'avant-garde sur notre jeu de données équilibré. Tous les modèles ont obtenu des performances nettement moins bonnes sur notre jeu de données équilibré, suggérant qu'ils ont effectivement appris à exploiter les a priori linguistiques. Cette découverte fournit la première preuve empirique concrète d'une perception qualitative partagée parmi les praticiens.Enfin, notre protocole de collecte de données pour identifier les images complémentaires nous a permis d'élaborer un modèle interprétable novateur, qui, outre le fait de fournir une réponse au couple (image, question) donné, offre également une explication basée sur un contre-exemple. Plus précisément, il identifie une image similaire à l'image originale, mais dont il estime qu'elle donne une réponse différente à la même question. Cela peut contribuer à renforcer la confiance des utilisateurs dans les machines.