Command Palette
Search for a command to run...
Raisonnement visuo-spatial
Raisonnement visuo-spatial
Fangyu Liu Guy Emerson Nigel Collier
Résumé
Les relations spatiales constituent une composante fondamentale de la cognition humaine. Toutefois, elles sont exprimées dans le langage naturel de manière très variée, et les travaux antérieurs ont suggéré que les modèles actuels vision-langage (VLM) peinent à capturer efficacement les informations relationnelles. Dans cet article, nous présentons Visual Spatial Reasoning (VSR), un jeu de données comprenant plus de 10 000 paires texte-image naturelles incluant 66 types de relations spatiales en anglais (par exemple : sous, devant, face à). Bien que le format d’annotation semble simple, nous montrons que ce jeu de données intègre des phénomènes linguistiques complexes, tels que des cadres de référence variables. Nous mettons en évidence un écart important entre les performances humaines et celles des modèles : le plafond humain dépasse 95 %, tandis que les meilleurs modèles actuels atteignent seulement environ 70 %. Nous observons également que les performances des VLM selon les relations présentent une faible corrélation avec le nombre d’exemples d’entraînement, et que les modèles testés sont généralement incapables de reconnaître des relations impliquant l’orientation des objets.