HyperAIHyperAI

Command Palette

Search for a command to run...

Raisonnement visuo-spatial

Fangyu Liu Guy Emerson Nigel Collier

Résumé

Les relations spatiales constituent une composante fondamentale de la cognition humaine. Toutefois, elles sont exprimées dans le langage naturel de manière très variée, et les travaux antérieurs ont suggéré que les modèles actuels vision-langage (VLM) peinent à capturer efficacement les informations relationnelles. Dans cet article, nous présentons Visual Spatial Reasoning (VSR), un jeu de données comprenant plus de 10 000 paires texte-image naturelles incluant 66 types de relations spatiales en anglais (par exemple : sous, devant, face à). Bien que le format d’annotation semble simple, nous montrons que ce jeu de données intègre des phénomènes linguistiques complexes, tels que des cadres de référence variables. Nous mettons en évidence un écart important entre les performances humaines et celles des modèles : le plafond humain dépasse 95 %, tandis que les meilleurs modèles actuels atteignent seulement environ 70 %. Nous observons également que les performances des VLM selon les relations présentent une faible corrélation avec le nombre d’exemples d’entraînement, et que les modèles testés sont généralement incapables de reconnaître des relations impliquant l’orientation des objets.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp