HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 13 jours

Raisonnement spatial avec des modèles vision-langage dans des scènes multi-vues en perspective subjective

Mohsen Gholami Ahmad Rezaei Zhou Weimin Yong Zhang Mohammad Akbari

Raisonnement spatial avec des modèles vision-langage dans des scènes multi-vues en perspective subjective

Résumé

La compréhension des relations spatiales en 3D demeure une limitation majeure des modèles actuels Vision-Language (VLM). Des travaux antérieurs ont abordé ce problème en créant des jeux de données de question-réponse (QA) spatiale basés sur des images uniques ou des vidéos intérieures. Toutefois, les agents d’intelligence artificielle incarnés du monde réel, tels que les robots ou les voitures autonomes, s’appuient généralement sur des observations centrées sur l’agent (ego-centric) et multi-vues. À cet effet, nous introduisons Ego3D-Bench, un nouveau benchmark conçu pour évaluer les capacités de raisonnement spatial des VLM à l’aide de données extérieures, centrées sur l’agent et multi-vues. Ego3D-Bench comprend plus de 8 600 paires question-réponse, élaborées avec une forte implication d’annotateurs humains afin d’assurer qualité et diversité. Nous évaluons 16 VLM d’avant-garde (SOTA), parmi lesquels GPT-4o, Gemini 1.5-Pro, InternVL3 et Qwen2.5-VL. Nos résultats révèlent un écart significatif entre les performances humaines et celles des VLM, mettant en évidence que les VLM actuels peinent encore à atteindre le niveau humain de compréhension spatiale. Pour combler cet écart, nous proposons Ego3D-VLM, un cadre de post-entraînement visant à améliorer le raisonnement spatial en 3D des VLM. Ego3D-VLM génère une carte cognitive à partir de coordonnées 3D globales estimées, entraînant une amélioration moyenne de 12 % sur les questions à choix multiples et de 56 % sur l’estimation de distance absolue. Ego3D-VLM est modulaire et peut être intégré à tout VLM existant. Ensemble, Ego3D-Bench et Ego3D-VLM offrent des outils précieux pour progresser vers une compréhension spatiale humaine dans des environnements réels et multi-vues.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Raisonnement spatial avec des modèles vision-langage dans des scènes multi-vues en perspective subjective | Articles de recherche | HyperAI