DeepPHY : Évaluation des VLM agents sur le raisonnement physique

Bien que les modèles de vision et de langage (VLM) présentent des capacités perceptives fortes et une raisonnement visuel impressionnant, ils peinent à maintenir une attention aux détails et à planifier précisément des actions dans des environnements complexes et dynamiques, ce qui entraîne une performance insuffisante. Les tâches du monde réel exigent généralement des interactions complexes, des raisonnements spatiaux avancés, une planification à long terme et une adaptation continue des stratégies, ce qui suppose souvent une compréhension des lois physiques propres au scénario cible. Toutefois, évaluer ces capacités dans des scénarios du monde réel s’avère souvent prohibitivement coûteux. Pour combler cet écart, nous introduisons DeepPHY, un nouveau cadre d’évaluation conçu pour évaluer de manière systématique la compréhension et le raisonnement des VLM concernant les principes physiques fondamentaux à travers une série d’environnements simulés exigeants. DeepPHY intègre plusieurs environnements de raisonnement physique de niveaux de difficulté variés et incorpore des métriques d’évaluation à haute granularité. Nos résultats d’évaluation montrent que même les VLM les plus avancés éprouvent des difficultés à traduire les connaissances physiques descriptives en contrôle précis et prédictif.