Les modèles pré-entraînés vision-langage peuvent-ils répondre à des questions visuelles d'information ?

Les modèles pré-entraînés multimodaux vision-langage ont démontré des performances de pointe sur diverses tâches impliquant des images et des textes, notamment la question-réponse visuelle (VQA). Toutefois, il reste incertain que ces modèles soient capables de répondre à des questions qui ne se limitent pas à l’interprétation du contenu visuel, mais qui exigent des connaissances approfondies et une recherche d’information. Dans cette étude, nous introduisons InfoSeek, un jeu de données de question-réponse visuelle spécifiquement conçu pour des questions à caractère informatif, dont la réponse ne peut être fournie uniquement à partir de connaissances courantes. À l’aide d’InfoSeek, nous analysons plusieurs modèles pré-entraînés de VQA et tirons des observations sur leurs caractéristiques. Nos résultats révèlent que les meilleurs modèles multimodaux pré-entraînés actuels (par exemple, PaLI-X, BLIP2, etc.) peinent à répondre efficacement aux questions d’information visuelles. Toutefois, le fine-tuning sur le jeu de données InfoSeek permet aux modèles d’exploiter des connaissances fines acquises durant leur phase d’entraînement préalable. En outre, nous montrons qu’une reconnaissance précise des entités visuelles peut améliorer significativement les performances sur InfoSeek en permettant la récupération de documents pertinents, ouvrant ainsi un vaste espace d’amélioration.