il y a 5 mois

Résumé

Le raisonnement spatial constitue un aspect fondamental de la psychologie cognitive et demeure un goulot d’étranglement majeur pour les modèles vision-langage (VLM) actuels. Bien que de nombreuses recherches aient visé à évaluer ou améliorer la compréhension des VLM concernant les relations spatiales élémentaires — telles que la distinction entre gauche et droite, proche et lointain, ou le dénombrement d’objets — ces tâches ne représentent que le niveau le plus élémentaire du raisonnement spatial. Dans ce travail, nous introduisons OmniSpatial, un benchmark complet et exigeant pour le raisonnement spatial, fondé sur la psychologie cognitive. OmniSpatial couvre quatre grandes catégories : raisonnement dynamique, logique spatiale complexe, interactions spatiales et prise de perspective, réparties en 50 sous-catégories fines. Grâce à un scraping de données sur Internet et une annotation manuelle soigneuse, nous avons construit plus de 1 500 paires question-réponse. Des expérimentations étendues montrent que tant les VLM à code ouvert qu’à code fermé, ainsi que les modèles existants de raisonnement et de compréhension spatiale, présentent des limites significatives dans la compréhension globale du spatial. Nous analysons également les cas d’échec et proposons des pistes prometteuses pour les recherches futures.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 5 mois

Benchmarks

Multimodal

Réponse À Des Questions Visuelles

Infrastructure D'ia

Multimodal

Tâche

Mengdi Jia Zekun Qi Shaochen Zhang Wenyao Zhang Xinqiang Yu et al

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 5 mois

Benchmarks

Multimodal

Réponse À Des Questions Visuelles

Infrastructure D'ia

Multimodal

Tâche

Mengdi Jia Zekun Qi Shaochen Zhang Wenyao Zhang Xinqiang Yu et al

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

OmniSpatial : Vers une évaluation complète du raisonnement spatial pour les modèles vision-langage

Mengdi Jia Zekun Qi Shaochen Zhang Wenyao Zhang Xinqiang Yu et al

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

OmniSpatial : Vers une évaluation complète du raisonnement spatial pour les modèles vision-langage

Mengdi Jia Zekun Qi Shaochen Zhang Wenyao Zhang Xinqiang Yu et al

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

OmniSpatial : Vers une évaluation complète du raisonnement spatial pour les modèles vision-langage

Mengdi Jia Zekun Qi Shaochen Zhang Wenyao Zhang Xinqiang Yu et al

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters