Raisonnement visuel interprétable via un espace symbolique induit

Nous étudions le problème de l’induction de concepts en raisonnement visuel, c’est-à-dire l’identification de concepts et de leurs relations hiérarchiques à partir de paires question-réponse associées à des images ; et nous obtenons un modèle interprétable en opérant dans l’espace symbolique de concepts induits. Pour cela, nous proposons d’abord un nouveau cadre, nommé modèle d’attention compositional centré sur les objets (OCCAM), destiné à réaliser la tâche de raisonnement visuel à l’aide de caractéristiques visuelles au niveau des objets. Ensuite, nous introduisons une méthode pour induire les concepts des objets et des relations à partir des indices présents dans les motifs d’attention entre les caractéristiques visuelles des objets et les mots de la question. Enfin, nous atteignons un niveau supérieur d’interprétabilité en appliquant OCCAM aux objets représentés dans l’espace symbolique de concepts induit. La conception de notre modèle permet une adaptation aisée : il suffit tout d’abord de prédire les concepts des objets et des relations, puis de projeter ces concepts prédits de retour dans l’espace des caractéristiques visuelles, afin que le module de raisonnement compositional puisse fonctionner normalement. Des expériences menées sur les jeux de données CLEVR et GQA démontrent que : 1) notre OCCAM atteint un nouveau record d’État de l’art sans recourir à des programmes fonctionnels annotés manuellement ; 2) les concepts induits sont à la fois précis et suffisants, puisque OCCAM obtient des performances comparables, qu’il traite les objets représentés dans les caractéristiques visuelles ou dans l’espace symbolique de concepts induit.