Ensemble De Données d'évaluation Multimodale FoMER Bench
Date
Size
Paper URL
License
Apache 2.0
FoMER Bench est un benchmark Foundational Model Embodied Reasoning (FoMER) publié en 2025 par l'Université Mohamed bin Zayed d'intelligence artificielle, l'Université de Linköping et l'Université nationale australienne.Dans quelle mesure les modèles de base sont-ils efficaces dans le raisonnement incarné étape par étape ?», qui vise à évaluer la capacité de raisonnement du LMM dans des scénarios complexes de prise de décision incarnée.
Cet ensemble de données contient plus de 1 100 exemples, couvrant un raisonnement détaillé étape par étape à travers 10 tâches et 8 tâches de raisonnement incarné. Il englobe trois types de robots et plusieurs modes robotiques, permettant d'évaluer les capacités du LLM pour diverses tâches, telles que la prédiction de l'action suivante, l'affordance de l'action, le bon sens physique, le raisonnement temporel, l'utilisation et la manipulation d'outils, l'évaluation des risques et la navigation du robot. Les données incluent des questions à choix multiples (QCM), des questions vrai/faux (VF) et des questions ouvertes. Chaque exemple est accompagné d'une observation (vidéo ou image + texte), de plusieurs actions candidates et des traces de raisonnement étape par étape correspondantes.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.