Une étude empirique de GPT-3 pour la VQA fondée sur les connaissances en peu d'exemples

La réponse aux questions visuelles fondée sur les connaissances (VQA) consiste à répondre à des questions nécessitant des connaissances externes non présentes dans l’image. Les méthodes existantes procèdent en deux étapes : elles récupèrent d’abord des connaissances à partir de ressources externes, puis raisonnent sur les connaissances sélectionnées, l’image d’entrée et la question afin de prédire la réponse. Toutefois, cette approche en deux étapes peut entraîner des incohérences qui limitent potentiellement les performances de la VQA. Par exemple, les connaissances récupérées peuvent être bruitées ou non pertinentes par rapport à la question, et les caractéristiques de connaissance ré-embeddées lors du raisonnement peuvent s’éloigner de leur signification initiale dans la base de connaissances (KB). Pour relever ce défi, nous proposons PICa, une méthode simple mais efficace qui exploite GPT-3 via des descriptions d’images (captions) pour la VQA fondée sur les connaissances. Inspirés de la puissance de GPT-3 en matière de récupération de connaissances et de réponse aux questions, nous ne recourons pas à des bases de connaissances structurées comme dans les travaux antérieurs, mais traitons GPT-3 comme une base de connaissances implicite et non structurée capable d’acquérir et de traiter conjointement des connaissances pertinentes. Plus précisément, nous convertissons d’abord l’image en descriptions (ou balises) que GPT-3 peut comprendre, puis adaptons GPT-3 à la tâche de VQA de manière peu supervisée en fournissant simplement quelques exemples contextuels de VQA. Nous améliorons davantage les performances en étudiant soigneusement : (i) quelles formes de texte décrivent le mieux le contenu de l’image, et (ii) comment sélectionner et utiliser efficacement les exemples contextuels. PICa ouvre la voie à la première utilisation de GPT-3 pour des tâches multimodales. En utilisant uniquement 16 exemples, PICa dépasse l’état de l’art supervisé de +8,6 points absolus sur le jeu de données OK-VQA. Nous avons également évalué PICa sur VQAv2, où il présente également des performances remarquables en peu d’exemples.