HyperAIHyperAI
il y a un mois

EmbRACE-3K : Raisonnement et Action Corporels dans des Environnements Complexes

Mingxian Lin, Wei Huang, Yitang Li, Chengjie Jiang, Kui Wu, Fangwei Zhong, Shengju Qian, Xin Wang, Xiaojuan Qi
EmbRACE-3K : Raisonnement et Action Corporels dans des Environnements Complexes
Résumé

Les modèles récents de vision-langage (VLMs) ont démontré des performances solides dans les tâches passives et hors ligne d'interprétation d'images et de vidéos. Cependant, leur efficacité dans des scénarios incarnés, qui nécessitent une interaction en ligne et une compréhension active de la scène, reste limitée. Dans ces situations, un agent perçoit l'environnement sous un angle de première personne, chaque action influençant dynamiquement les observations suivantes. Même les modèles d'avant-garde comme GPT-4o, Claude 3.5 Sonnet et Gemini 2.5 Pro peinent lors d'interactions dans des environnements ouverts, montrant des limitations évidentes en matière de raisonnement spatial et de planification à long terme.Pour combler cette lacune, nous présentons EmRACE-3K, un ensemble de données comprenant plus de 3 000 tâches guidées par le langage situées dans des environnements divers et photoréalistes construits à l'aide du moteur Unreal Engine et du cadre UnrealCV-Zoo. Ces tâches englobent une gamme étendue de défis incarnés, notamment la navigation, la manipulation d'objets et l'exécution de buts multistades. Chaque tâche se déroule sous forme d'une trajectoire multietapes, associant des observations visuelles en première personne à des instructions de haut niveau, des actions ancrées et des justifications linguistiques exprimant l'intention de l'agent à chaque étape.En utilisant EmRACE-3K, nous établissons un benchmark pour évaluer les capacités de raisonnement incarné des VLMs selon trois dimensions clés : Exploration, Raisonnement Spatio-sémantique Dynamique et Exécution Multistade des Buts. Dans des configurations zero-shot (à froid), tous les modèles atteignent des taux de réussite inférieurs à 20 %, soulignant le défi que représente notre benchmark ainsi que les limitations actuelles des VLMs dans les environnements interactifs.Pour démontrer l'utilité d'EmRACE-3K, nous avons procédé à un affinage supplémentaire du modèle Qwen2.5-VL-7B en utilisant d'abord un apprentissage supervisé puis un apprentissage par renforcement. Cette approche a permis d'obtenir des améliorations substantielles dans chacune des trois catégories de défis, mettant en lumière l'efficacité du jeu de données pour favoriser le développement de capacités de raisonnement incarné.