GraghVQA : Réseaux de neurones graphiques guidés par le langage pour la réponse aux questions visuelles basée sur les graphes

Les images sont bien plus qu’un simple ensemble d’objets ou d’attributs : elles représentent un réseau de relations entre des objets interconnectés. Le Scene Graph est apparu comme une nouvelle modalité pour une représentation graphique structurée des images. Dans un Scene Graph, les objets sont modélisés comme des nœuds reliés par des relations binaires, représentées sous forme d’arêtes. Afin de soutenir la réponse aux questions sur les Scene Graphs, nous proposons GraphVQA, un cadre basé sur les réseaux de neurones graphiques guidés par le langage, qui traduit et exécute une question en langage naturel à travers plusieurs itérations d’échanges d’informations entre les nœuds du graphe. Nous explorons l’espace de conception du cadre GraphVQA et discutons des compromis inhérents aux différentes choix architecturaux. Nos expériences sur le jeu de données GQA montrent que GraphVQA surpasser largement le modèle de pointe (88,43 % contre 94,78 %).