Command Palette
Search for a command to run...
Quelle est la qualité des modèles fondamentaux dans le raisonnement incarné étape par étape ?
Dinura Dissanayake Ahmed Heakl Omkar Thawakar Noor Ahsan et al

Résumé
Les agents incarnés opérant dans le monde physique doivent prendre des décisions qui sont non seulement efficaces, mais aussi sûres, spatialement cohérentes et ancrées dans leur contexte. Bien que les avancées récentes dans les grands modèles multimodaux (LMMs) aient démontré des capacités prometteuses en compréhension visuelle et génération de langage, leur capacité à effectuer un raisonnement structuré pour des tâches incarnées réelles reste peu explorée. Dans ce travail, nous visons à évaluer dans quelle mesure les modèles fondamentaux peuvent mener un raisonnement étape par étape dans des environnements incarnés. À cette fin, nous proposons le benchmark Foundation Model Embodied Reasoning (FoMER), conçu pour évaluer les capacités de raisonnement des LMMs dans des scénarios complexes de prise de décision incarnée. Notre benchmark couvre un large éventail de tâches exigeant que les agents interprètent des observations multimodales, raisonnent sur les contraintes physiques et la sécurité, et génèrent des actions futures valides sous forme de langage naturel. Nous présentons (i) une suite étendue et soigneusement sélectionnée de tâches de raisonnement incarné, (ii) un cadre d’évaluation novateur qui sépare le fondement perceptif du raisonnement actionnel, et (iii) une analyse empirique de plusieurs LMMs de pointe dans ce contexte. Notre benchmark inclut plus de 1 100 échantillons avec des raisonnements pas à pas détaillés sur 10 tâches et 8 incarnations, couvrant trois types différents de robots. Nos résultats mettent en lumière à la fois le potentiel et les limites actuelles des LMMs en matière de raisonnement incarné, soulignant ainsi des défis clés et des opportunités pour la recherche future en intelligence robotique. Nos données et code seront rendus accessibles au public.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.