Représentations structurées en graphe pour le réponse aux questions visuelles

Cet article propose d'améliorer le système de réponse aux questions visuelles (VQA) en utilisant des représentations structurées à la fois du contenu de la scène et de la forme des questions. Un défi majeur dans le domaine du VQA est de nécessiter un raisonnement conjoint sur les domaines visuel et textuel. L'approche dominante basée sur les CNN/LSTM pour le VQA est limitée par des représentations vectorielles monolithiques qui ignorent largement la structure de la scène et celle de la question. Les vecteurs de caractéristiques CNN ne peuvent pas capturer efficacement des situations aussi simples que plusieurs instances d'objets, tandis que les LSTM traitent les questions comme une série de mots, ce qui ne reflète pas la véritable complexité de la structure linguistique. Nous proposons donc plutôt de construire des graphes sur les objets de la scène et sur les mots de la question, et nous décrivons un réseau neuronal profond qui exploite cette structure dans ces représentations. Cela montre un avantage significatif par rapport au traitement séquentiel effectué par les LSTM. L'efficacité globale de notre approche est démontrée par des améliorations substantielles par rapport à l'état de l'art, avec une précision passant de 71,2 % à 74,4 % sur le banc d'essai à choix multiples des "scènes abstraites" et de 34,7 % à 39,1 % sur les paires de "scènes équilibrées", c'est-à-dire des images présentant des différences subtiles et des réponses opposées (oui/non) à une même question.