HyperAIHyperAI
il y a 2 mois

PolarNet : Nuages de Points 3D pour la Manipulation Robotique Guidée par le Langage

Shizhe Chen; Ricardo Garcia; Cordelia Schmid; Ivan Laptev
PolarNet : Nuages de Points 3D pour la Manipulation Robotique Guidée par le Langage
Résumé

La capacité des robots à comprendre et à exécuter des tâches de manipulation basées sur des instructions en langage naturel est un objectif à long terme dans le domaine de la robotique. Les approches dominantes pour la manipulation guidée par le langage utilisent des représentations d'images 2D, qui rencontrent des difficultés pour combiner plusieurs caméras et inférer des positions et relations 3D précises. Pour remédier à ces limitations, nous proposons une politique basée sur les nuages de points 3D appelée PolarNet pour la manipulation guidée par le langage. Elle utilise des entrées de nuages de points soigneusement conçues, des encodeurs de nuages de points efficaces et des transformateurs multimodaux pour apprendre des représentations de nuages de points 3D et les intégrer avec des instructions linguistiques afin de prédire les actions. PolarNet s'est révélée efficace et peu gourmande en données dans diverses expériences menées sur le benchmark RLBench. Elle surpasses les méthodes 2D et 3D les plus avancées actuellement disponibles, tant en apprentissage mono-tâche qu'en apprentissage multi-tâches. Elle obtient également des résultats prometteurs sur un robot réel.

PolarNet : Nuages de Points 3D pour la Manipulation Robotique Guidée par le Langage | Articles de recherche récents | HyperAI