Command Palette
Search for a command to run...
DualTHOR : Une plateforme de simulation humanoïde à deux bras pour la planification anticipant les imprévus

Résumé
Le développement d'agents incarnés capables d'effectuer des tâches interactives complexes dans des scénarios du monde réel reste un défi fondamental en IA incarnée. Bien que les progrès récents dans les plateformes de simulation aient considérablement amélioré la diversité des tâches pour entraîner les modèles de vision et de langage incarnés (VLMs), la plupart de ces plateformes reposent sur des morphologies robotiques simplifiées et ignorent la nature stochastique de l'exécution de bas niveau, ce qui limite leur transférabilité aux robots du monde réel. Pour remédier à ces problèmes, nous présentons une plateforme de simulation basée sur la physique, DualTHOR, conçue pour des robots humanoïdes à deux bras complexes, construite sur une version étendue d'AI2-THOR. Notre simulateur intègre des actifs de robots du monde réel, un ensemble de tâches pour la collaboration à deux bras, ainsi que des solveurs d'kinématique inverse pour les robots humanoïdes. Nous introduisons également un mécanisme de contingence qui incorpore les éventuelles erreurs par le biais d'une exécution de bas niveau basée sur la physique, comblant ainsi l'écart avec les scénarios du monde réel. Notre simulateur permet une évaluation plus complète de la robustesse et de la généralisation des VLMs dans des environnements domestiques. Des évaluations approfondies montrent que les VLMs actuels ont du mal à coordonner leurs deux bras et présentent une robustesse limitée dans des environnements réalistes avec contingences, soulignant l'importance d'utiliser notre simulateur pour développer des VLMs plus performants pour les tâches incarnées. Le code est disponible sur https://github.com/ds199895/DualTHOR.git.
Dépôts de code
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.