Command Palette
Search for a command to run...
OmniSpatial : Vers une évaluation complète du raisonnement spatial pour les modèles vision-langage
OmniSpatial : Vers une évaluation complète du raisonnement spatial pour les modèles vision-langage
Mengdi Jia Zekun Qi Shaochen Zhang Wenyao Zhang Xinqiang Yu et al
Résumé
Le raisonnement spatial constitue un aspect fondamental de la psychologie cognitive et demeure un goulot d’étranglement majeur pour les modèles vision-langage (VLM) actuels. Bien que de nombreuses recherches aient visé à évaluer ou améliorer la compréhension des VLM concernant les relations spatiales élémentaires — telles que la distinction entre gauche et droite, proche et lointain, ou le dénombrement d’objets — ces tâches ne représentent que le niveau le plus élémentaire du raisonnement spatial. Dans ce travail, nous introduisons OmniSpatial, un benchmark complet et exigeant pour le raisonnement spatial, fondé sur la psychologie cognitive. OmniSpatial couvre quatre grandes catégories : raisonnement dynamique, logique spatiale complexe, interactions spatiales et prise de perspective, réparties en 50 sous-catégories fines. Grâce à un scraping de données sur Internet et une annotation manuelle soigneuse, nous avons construit plus de 1 500 paires question-réponse. Des expérimentations étendues montrent que tant les VLM à code ouvert qu’à code fermé, ainsi que les modèles existants de raisonnement et de compréhension spatiale, présentent des limites significatives dans la compréhension globale du spatial. Nous analysons également les cas d’échec et proposons des pistes prometteuses pour les recherches futures.