REVIVE : La représentation visuelle régionale est cruciale dans la réponse aux questions visuelles fondée sur les connaissances

Cet article réexamine la représentation visuelle dans les tâches de réponse à des questions visuelles fondées sur des connaissances (VQA basée sur les connaissances) et démontre qu’une utilisation plus efficace des informations régionales peut améliorer significativement les performances. Bien que la représentation visuelle ait fait l’objet de nombreuses études dans le cadre de la VQA classique, elle reste sous-exploree dans la VQA basée sur les connaissances, bien que ces deux tâches partagent un même objectif fondamental : répondre à une question en s’appuyant sur une entrée visuelle. Plus précisément, nous observons que la plupart des méthodes de pointe en VQA basée sur les connaissances : 1) extraient les caractéristiques visuelles soit à partir de l’image entière, soit de manière glissante pour la recherche de connaissances, négligeant ainsi les relations importantes entre ou au sein des régions d’objets ; 2) n’utilisent pas efficacement les caractéristiques visuelles dans le modèle final de réponse, ce qui apparaît en partie contre-intuitif. À partir de ces observations, nous proposons une nouvelle méthode de VQA basée sur les connaissances, appelée REVIVE, qui vise à exploiter de manière explicite les informations relatives aux régions d’objets tant au stade de recherche de connaissances qu’au sein du modèle de réponse. La motivation principale repose sur l’importance cruciale des régions d’objets et des relations intrinsèques qu’elles entretiennent dans la VQA basée sur les connaissances. Nous menons des expériences étendues sur le jeu de données standard OK-VQA et atteignons une performance de pointe, avec un taux de précision de 58,0 %, surpassant ainsi de manière significative la méthode précédente de pointe (+3,6 %). Nous réalisons également une analyse détaillée qui met en évidence la nécessité d’intégrer les informations régionales dans les différents composants du cadre d’architecture pour la VQA basée sur les connaissances. Le code source est disponible publiquement à l’adresse suivante : https://github.com/yzleroy/REVIVE.