HyperAIHyperAI

Command Palette

Search for a command to run...

Faire en sorte que le V compte dans la VQA : Élever le rôle de la compréhension des images dans le répondre aux questions visuelles

Yash Goyal∗1 Tejas Khot∗1 Douglas Summers-Stay2 Dhruv Batra3 Devi Parikh3

Résumé

Les problèmes à l'intersection de la vision et du langage sont d'une importance considérable, tant en tant que questions de recherche complexes qu'en raison des nombreuses applications qu'ils permettent. Cependant, la structure inhérente de notre monde et les biais dans notre langage tendent à être un signal plus simple pour l'apprentissage que les modalités visuelles, ce qui entraîne des modèles qui ignorent les informations visuelles, donnant ainsi une fausse impression de leurs capacités.Nous proposons de contrer ces a priori linguistiques pour la tâche de Réponse aux Questions Visuelles (RVQ) et de faire en sorte que la vision (le V dans RVQ) compte réellement ! Plus précisément, nous équilibrons le jeu de données RVQ populaire en collectant des images complémentaires de manière à ce que chaque question dans notre jeu de données équilibré soit associée non pas à une seule image, mais plutôt à un couple d'images similaires qui aboutissent à deux réponses différentes à la question. Notre jeu de données est par construction plus équilibré que le jeu de données RVQ original et contient environ deux fois plus de paires image-question. Notre jeu de données équilibré complet est disponible au public sur www.visualqa.org dans le cadre de la deuxième itération du Jeu de Données et du Défi Réponse aux Questions Visuelles (RVQ v2.0).Nous avons également évalué plusieurs modèles RVQ d'avant-garde sur notre jeu de données équilibré. Tous les modèles ont obtenu des performances nettement moins bonnes sur notre jeu de données équilibré, suggérant qu'ils ont effectivement appris à exploiter les a priori linguistiques. Cette découverte fournit la première preuve empirique concrète d'une perception qualitative partagée parmi les praticiens.Enfin, notre protocole de collecte de données pour identifier les images complémentaires nous a permis d'élaborer un modèle interprétable novateur, qui, outre le fait de fournir une réponse au couple (image, question) donné, offre également une explication basée sur un contre-exemple. Plus précisément, il identifie une image similaire à l'image originale, mais dont il estime qu'elle donne une réponse différente à la même question. Cela peut contribuer à renforcer la confiance des utilisateurs dans les machines.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp