R-VQA : Apprentissage des faits relationnels visuels avec attention sémantique pour la réponse aux questions visuelles

Récemment, le Visual Question Answering (VQA) est apparu comme l'une des tâches les plus significatives dans l'apprentissage multimodal, car il nécessite de comprendre à la fois les modalités visuelles et textuelles. Les méthodes existantes reposent principalement sur l'extraction de caractéristiques d'images et de questions pour apprendre leur plongement de caractéristiques conjointes par le biais de la fusion multimodale ou du mécanisme d'attention. Certaines études récentes utilisent des modèles externes indépendants du VQA pour détecter des entités ou des attributs candidats dans les images, qui servent de connaissances sémantiques complémentaires à la tâche VQA. Cependant, ces entités ou attributs candidats peuvent être non pertinents pour la tâche VQA et ont une capacité sémantique limitée. Pour mieux utiliser les connaissances sémantiques dans les images, nous proposons un nouveau cadre pour apprendre des faits relationnels visuels pour le VQA. Plus précisément, nous construisons un ensemble de données Relation-VQA (R-VQA) basé sur le jeu de données Visual Genome grâce à un module de similarité sémantique, où chaque donnée comprend une image, une question correspondante, une réponse correcte et un fait relationnel supportant. Un détecteur de relations bien défini est ensuite utilisé pour prédire des faits relationnels visuels liés à la question. Nous proposons également un modèle d'attention en plusieurs étapes composé d'une attention visuelle et d'une attention sémantique appliquées séquentiellement pour extraire des connaissances visuelles et sémantiques pertinentes. Nous menons des expériences exhaustives sur deux jeux de données de référence, démontrant que notre modèle atteint des performances de pointe et vérifiant l'avantage qu'il y a à prendre en compte les faits relationnels visuels.