Légendage d'images et réponse à des questions visuelles basés sur les attributs et les connaissances externes

De nombreux progrès récents dans les problèmes de Vision-to-Language ont été réalisés grâce à une combinaison de Réseaux Neuronaux Convolutifs (CNNs) et de Réseaux Neuronaux Récurents (RNNs). Cette approche ne représente pas explicitement des concepts sémantiques de haut niveau, mais cherche plutôt à passer directement des caractéristiques d'image au texte. Dans cet article, nous proposons d'abord une méthode pour intégrer des concepts de haut niveau à l'approche CNN-RNN éprouvée, et montrons qu'elle réalise une amélioration significative par rapport à l'état de l'art en matière de légendage d'images et de réponse à des questions visuelles. Nous démontrons également que le même mécanisme peut être utilisé pour incorporer des connaissances externes, ce qui est particulièrement crucial pour répondre aux questions visuelles de haut niveau. Plus précisément, nous concevons un modèle de réponse à des questions visuelles qui combine une représentation interne du contenu d'une image avec des informations extraites d'une base de connaissances générale pour répondre à un large éventail de questions basées sur des images. Il permet notamment de poser des questions sur le contenu d'une image, même lorsque celle-ci ne contient pas une réponse complète. Notre modèle final obtient les meilleurs résultats rapportés en matière de légendage d'images et de réponse à des questions visuelles sur plusieurs jeux de données de référence.