il y a 6 mois

Résumé

Les relations spatiales constituent une composante fondamentale de la cognition humaine. Toutefois, elles sont exprimées dans le langage naturel de manière très variée, et les travaux antérieurs ont suggéré que les modèles actuels vision-langage (VLM) peinent à capturer efficacement les informations relationnelles. Dans cet article, nous présentons Visual Spatial Reasoning (VSR), un jeu de données comprenant plus de 10 000 paires texte-image naturelles incluant 66 types de relations spatiales en anglais (par exemple : sous, devant, face à). Bien que le format d’annotation semble simple, nous montrons que ce jeu de données intègre des phénomènes linguistiques complexes, tels que des cadres de référence variables. Nous mettons en évidence un écart important entre les performances humaines et celles des modèles : le plafond humain dépasse 95 %, tandis que les meilleurs modèles actuels atteignent seulement environ 70 %. Nous observons également que les performances des VLM selon les relations présentent une faible corrélation avec le nombre d’exemples d’entraînement, et que les modèles testés sont généralement incapables de reconnaître des relations impliquant l’orientation des objets.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Compréhension D'images

Traitement Du Langage Naturel

Multimodal

Vision Par Ordinateur

Tâche

Fangyu Liu Guy Emerson Nigel Collier

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Compréhension D'images

Traitement Du Langage Naturel

Multimodal

Vision Par Ordinateur

Tâche

Fangyu Liu Guy Emerson Nigel Collier

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Raisonnement visuo-spatial | Articles | HyperAI

Command Palette

Raisonnement visuo-spatial

Fangyu Liu Guy Emerson Nigel Collier

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Raisonnement visuo-spatial

Fangyu Liu Guy Emerson Nigel Collier

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Raisonnement visuo-spatial

Fangyu Liu Guy Emerson Nigel Collier

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters