HyperAIHyperAI

Command Palette

Search for a command to run...

DeepPHY : Évaluation des VLM agents sur le raisonnement physique

Xinrun Xu Pi Bu Ye Wang Börje F. Karlsson Ziming Wang Tengtao Song Qi Zhu Jun Song Zhiming Ding Bo Zheng

Résumé

Bien que les modèles de vision et de langage (VLM) présentent des capacités perceptives fortes et une raisonnement visuel impressionnant, ils peinent à maintenir une attention aux détails et à planifier précisément des actions dans des environnements complexes et dynamiques, ce qui entraîne une performance insuffisante. Les tâches du monde réel exigent généralement des interactions complexes, des raisonnements spatiaux avancés, une planification à long terme et une adaptation continue des stratégies, ce qui suppose souvent une compréhension des lois physiques propres au scénario cible. Toutefois, évaluer ces capacités dans des scénarios du monde réel s’avère souvent prohibitivement coûteux. Pour combler cet écart, nous introduisons DeepPHY, un nouveau cadre d’évaluation conçu pour évaluer de manière systématique la compréhension et le raisonnement des VLM concernant les principes physiques fondamentaux à travers une série d’environnements simulés exigeants. DeepPHY intègre plusieurs environnements de raisonnement physique de niveaux de difficulté variés et incorpore des métriques d’évaluation à haute granularité. Nos résultats d’évaluation montrent que même les VLM les plus avancés éprouvent des difficultés à traduire les connaissances physiques descriptives en contrôle précis et prédictif.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
DeepPHY : Évaluation des VLM agents sur le raisonnement physique | Articles | HyperAI