IllusionVQA : Un ensemble de données exigeant d'illusions optiques pour les modèles vision-langage

L’apparition des modèles de vision-langage (VLM) a permis aux chercheurs d’explorer la compréhension visuelle d’un réseau neuronal à l’aide du langage naturel. Au-delà de la classification et de la détection d’objets, les VLM sont capables de comprendre visuellement et de raisonner selon des principes du sens commun. Cela a naturellement conduit à la question suivante : comment les VLM réagissent-ils lorsque l’image elle-même est intrinsèquement absurde ? À cet effet, nous présentons IllusionVQA : un ensemble de données diversifié comprenant des illusions optiques complexes et des scènes difficiles à interpréter, conçu pour évaluer les capacités des VLM dans deux tâches distinctes de VQA à choix multiples — la compréhension et la localisation douce. GPT4V, le VLM le mieux performant, atteint une précision de 62,99 % (4-exemples) sur la tâche de compréhension et de 49,7 % sur la tâche de localisation (4-exemples et raisonnement en chaîne de pensée). Une évaluation humaine révèle que les humains obtiennent respectivement 91,03 % et 100 % de précision sur les tâches de compréhension et de localisation. Nous constatons que l’apprentissage in-context (ICL) et le raisonnement en chaîne de pensée dégradent significativement les performances de Gemini-Pro sur la tâche de localisation. De manière tangentielle, nous identifions une faiblesse potentielle des capacités d’ICL des VLM : ils échouent à localiser les illusions optiques, même lorsque la réponse correcte est présente dans la fenêtre contextuelle sous forme d’un exemple à quelques exemples.