HyperAIHyperAI

Command Palette

Search for a command to run...

OmniSpatial : Vers une évaluation complète du raisonnement spatial pour les modèles vision-langage

Mengdi Jia Zekun Qi Shaochen Zhang Wenyao Zhang Xinqiang Yu et al

Résumé

Le raisonnement spatial constitue un aspect fondamental de la psychologie cognitive et demeure un goulot d’étranglement majeur pour les modèles vision-langage (VLM) actuels. Bien que de nombreuses recherches aient visé à évaluer ou améliorer la compréhension des VLM concernant les relations spatiales élémentaires — telles que la distinction entre gauche et droite, proche et lointain, ou le dénombrement d’objets — ces tâches ne représentent que le niveau le plus élémentaire du raisonnement spatial. Dans ce travail, nous introduisons OmniSpatial, un benchmark complet et exigeant pour le raisonnement spatial, fondé sur la psychologie cognitive. OmniSpatial couvre quatre grandes catégories : raisonnement dynamique, logique spatiale complexe, interactions spatiales et prise de perspective, réparties en 50 sous-catégories fines. Grâce à un scraping de données sur Internet et une annotation manuelle soigneuse, nous avons construit plus de 1 500 paires question-réponse. Des expérimentations étendues montrent que tant les VLM à code ouvert qu’à code fermé, ainsi que les modèles existants de raisonnement et de compréhension spatiale, présentent des limites significatives dans la compréhension globale du spatial. Nous analysons également les cas d’échec et proposons des pistes prometteuses pour les recherches futures.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp