HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un mois

Quelle est la qualité des modèles fondamentaux dans le raisonnement incarné étape par étape ?

Dinura Dissanayake Ahmed Heakl Omkar Thawakar Noor Ahsan et al

Quelle est la qualité des modèles fondamentaux dans le raisonnement incarné étape par étape ?

Résumé

Les agents incarnés opérant dans le monde physique doivent prendre des décisions qui sont non seulement efficaces, mais aussi sûres, spatialement cohérentes et ancrées dans leur contexte. Bien que les avancées récentes dans les grands modèles multimodaux (LMMs) aient démontré des capacités prometteuses en compréhension visuelle et génération de langage, leur capacité à effectuer un raisonnement structuré pour des tâches incarnées réelles reste peu explorée. Dans ce travail, nous visons à évaluer dans quelle mesure les modèles fondamentaux peuvent mener un raisonnement étape par étape dans des environnements incarnés. À cette fin, nous proposons le benchmark Foundation Model Embodied Reasoning (FoMER), conçu pour évaluer les capacités de raisonnement des LMMs dans des scénarios complexes de prise de décision incarnée. Notre benchmark couvre un large éventail de tâches exigeant que les agents interprètent des observations multimodales, raisonnent sur les contraintes physiques et la sécurité, et génèrent des actions futures valides sous forme de langage naturel. Nous présentons (i) une suite étendue et soigneusement sélectionnée de tâches de raisonnement incarné, (ii) un cadre d’évaluation novateur qui sépare le fondement perceptif du raisonnement actionnel, et (iii) une analyse empirique de plusieurs LMMs de pointe dans ce contexte. Notre benchmark inclut plus de 1 100 échantillons avec des raisonnements pas à pas détaillés sur 10 tâches et 8 incarnations, couvrant trois types différents de robots. Nos résultats mettent en lumière à la fois le potentiel et les limites actuelles des LMMs en matière de raisonnement incarné, soulignant ainsi des défis clés et des opportunités pour la recherche future en intelligence robotique. Nos données et code seront rendus accessibles au public.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Quelle est la qualité des modèles fondamentaux dans le raisonnement incarné étape par étape ? | Articles de recherche | HyperAI