Exploration des modèles et des données pour le questionnement d'images

Ce travail vise à résoudre le problème de réponse à des questions basées sur des images (QA) grâce à de nouveaux modèles et ensembles de données. Dans notre étude, nous proposons d'utiliser des réseaux neuronaux et des plongements sémantiques visuels, sans passer par des étapes intermédiaires telles que la détection d'objets et la segmentation d'images, pour prédire les réponses à des questions simples concernant les images. Notre modèle performe 1,8 fois mieux que les seuls résultats publiés sur un ensemble de données existant en QA d'images. Nous présentons également un algorithme de génération de questions qui transforme les descriptions d'images, largement disponibles, en forme QA. Cet algorithme a été utilisé pour produire un ensemble de données plus important d'un ordre de grandeur, avec une distribution plus équilibrée des réponses. Une série de résultats baselines sur ce nouvel ensemble de données est également présentée.