VLC-BERT : Réponse aux questions visuelles avec des connaissances courantes contextualisées

Un intérêt croissant s’est manifesté pour la résolution des tâches de réponse à des questions visuelles (Visual Question Answering, VQA), qui exigent que le modèle raisonne au-delà du contenu directement présent dans l’image. Dans ce travail, nous nous concentrons sur les questions nécessitant un raisonnement du sens commun. Contrairement aux approches antérieures qui injectent des connaissances provenant de bases de connaissances statiques, nous explorons l’intégration de connaissances contextualisées à l’aide de COMET, un modèle existant de connaissances entraîné sur des bases de connaissances soigneusement curatrices par des humains. Nous proposons une méthode permettant de générer, sélectionner et encoder des connaissances du sens commun externes, conjointement avec les indices visuels et textuels, au sein d’un nouveau modèle pré-entraîné, le Vision-Language-Commonsense Transformer, appelé VLC-BERT. Grâce à une évaluation sur les jeux de données exigeant une connaissance approfondie, OK-VQA et A-OKVQA, nous démontrons que VLC-BERT est capable de surpasser les modèles existants utilisant des bases de connaissances statiques. En outre, une analyse détaillée permet d’expliquer quelles catégories de questions bénéficient, et quelles autres ne bénéficient pas, de l’apport de connaissances du sens commun contextualisées issues de COMET.