HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un mois

À quel point les VLM sont-ils éloignés de l'intelligence visuo-spatiale ? Une perspective pilotée par un benchmark

À quel point les VLM sont-ils éloignés de l'intelligence visuo-spatiale ? Une perspective pilotée par un benchmark

Résumé

Le raisonnement visuo-spatial (VSR) constitue une capacité cognitive humaine fondamentale et un enjeu critique pour le développement de l’intelligence incarnée et des systèmes autonomes. Malgré les progrès récents réalisés dans les modèles vision-langage (VLM), l’atteinte d’un niveau humain de VSR demeure extrêmement difficile en raison de la complexité inhérente à la représentation et au raisonnement dans l’espace tridimensionnel. Dans cet article, nous présentons une étude systématique du VSR dans les VLM, incluant un examen des méthodologies existantes selon les modalités d’entrée, les architectures de modèles, les stratégies d’entraînement et les mécanismes de raisonnement. Par ailleurs, nous classons l’intelligence spatiale en trois niveaux de compétence : perception fondamentale, compréhension spatiale et planification spatiale, et proposons SIBench, un benchmark d’intelligence spatiale regroupant près de 20 jeux de données open source répartis sur 23 configurations de tâches. Les expérimentations menées avec les VLM les plus avancés mettent en évidence un écart marqué entre la perception et le raisonnement : les modèles se montrent compétents pour les tâches perceptives de base, mais se révèlent systématiquement inférieurs dans les tâches de compréhension et de planification, notamment en matière d’estimation numérique, de raisonnement multi-vues, de dynamiques temporelles et d’imagination spatiale. Ces résultats soulignent les défis substantiels qui persistent dans la réalisation d’une véritable intelligence spatiale, tout en offrant une feuille de route systématique et un benchmark complet pour stimuler les recherches futures dans ce domaine. Les ressources associées à cette étude sont accessibles à l’adresse suivante : https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
À quel point les VLM sont-ils éloignés de l'intelligence visuo-spatiale ? Une perspective pilotée par un benchmark | Articles de recherche | HyperAI