Command Palette
Search for a command to run...
BEAR : Benchmarking et amélioration des modèles linguistiques multimodaux pour des capacités incarnées atomiques

Résumé
Les capacités incarnées désignent un ensemble d’aptitudes fondamentales permettant à un agent de percevoir, de comprendre et d’interagir avec le monde physique. Bien que les modèles linguistiques à grande échelle multimodaux (MLLM) se révèlent prometteurs en tant qu’agents incarnés, leur évaluation approfondie et systématique en matière de capacités incarnées reste largement sous-exploree, les benchmarks existants se concentrant principalement sur des domaines spécifiques tels que la planification ou la compréhension spatiale. Pour combler cette lacune, nous introduisons BEAR, un benchmark complet et à haute granularité évaluant les MLLM sur des capacités incarnées atomiques. BEAR comprend 4 469 entrées entrelacées images-videos-textes réparties sur 14 domaines regroupés en 6 catégories, couvrant des tâches allant du pointage de bas niveau, à la compréhension des trajectoires, au raisonnement spatial, jusqu’à la planification de haut niveau. Les résultats d’évaluation étendus de 20 MLLM représentatifs révèlent leurs limites persistantes dans l’ensemble des domaines de capacités incarnées. Pour pallier ce manque, nous proposons BEAR-Agent, un agent multimodal conversable intégrant des modèles pré-entraînés de vision afin de renforcer la perception, la compréhension 3D et les capacités de planification des MLLM. Ce système améliore de manière significative les performances des MLLM sur diverses capacités incarnées dans BEAR, avec une augmentation absolue de 9,12 % et une amélioration relative de 17,5 % pour GPT-5. En outre, nos expériences indiquent qu’améliorer les capacités incarnées des MLLM peut bénéficier à des tâches incarnées dans des environnements simulés. Site du projet : https://bear-official66.github.io/
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.