HyperAIHyperAI

Command Palette

Search for a command to run...

BEAR : Benchmarking et amélioration des modèles linguistiques multimodaux pour des capacités incarnées atomiques

Résumé

Les capacités incarnées désignent un ensemble d’aptitudes fondamentales permettant à un agent de percevoir, de comprendre et d’interagir avec le monde physique. Bien que les modèles linguistiques à grande échelle multimodaux (MLLM) se révèlent prometteurs en tant qu’agents incarnés, leur évaluation approfondie et systématique en matière de capacités incarnées reste largement sous-exploree, les benchmarks existants se concentrant principalement sur des domaines spécifiques tels que la planification ou la compréhension spatiale. Pour combler cette lacune, nous introduisons BEAR, un benchmark complet et à haute granularité évaluant les MLLM sur des capacités incarnées atomiques. BEAR comprend 4 469 entrées entrelacées images-videos-textes réparties sur 14 domaines regroupés en 6 catégories, couvrant des tâches allant du pointage de bas niveau, à la compréhension des trajectoires, au raisonnement spatial, jusqu’à la planification de haut niveau. Les résultats d’évaluation étendus de 20 MLLM représentatifs révèlent leurs limites persistantes dans l’ensemble des domaines de capacités incarnées. Pour pallier ce manque, nous proposons BEAR-Agent, un agent multimodal conversable intégrant des modèles pré-entraînés de vision afin de renforcer la perception, la compréhension 3D et les capacités de planification des MLLM. Ce système améliore de manière significative les performances des MLLM sur diverses capacités incarnées dans BEAR, avec une augmentation absolue de 9,12 % et une amélioration relative de 17,5 % pour GPT-5. En outre, nos expériences indiquent qu’améliorer les capacités incarnées des MLLM peut bénéficier à des tâches incarnées dans des environnements simulés. Site du projet : https://bear-official66.github.io/


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp