HyperAIHyperAI

Command Palette

Search for a command to run...

RoboUniView : Modèle visuel-langage à représentation de vue unifiée pour la manipulation robotique

Fanfan Liu Feng Yan Liming Zheng Chengjian Feng Yiyang Huang Lin Ma

Résumé

L’utilisation des modèles vision-langage (VLM) pour la manipulation robotique représente un paradigme novateur, visant à améliorer la capacité du modèle à généraliser à de nouveaux objets et instructions. Toutefois, en raison des variations dans les spécifications des caméras et leurs positions d’installation, les méthodes existantes présentent des écarts significatifs de performance entre différentes plates-formes robotiques. Pour relever ce défi, nous proposons dans cet article RoboUniView, une approche innovante qui découple l’extraction des caractéristiques visuelles de l’apprentissage des actions. Nous apprenons d’abord une représentation visuelle unifiée à partir de vues multi-perspectives en pré-entraînant sur des données facilement accessibles, puis dérivons les actions à partir de cette représentation unifiée pour contrôler la manipulation robotique. Cette représentation unifiée reflète plus fidèlement le monde physique et n’est pas contrainte par les paramètres de la caméra de la plate-forme robotique. Grâce à cette méthodologie, nous atteignons des performances de pointe sur le défi exigeant du benchmark CALVIN, en augmentant le taux de réussite dans le cadre DDD \to DDD de 93,0 % à 96,2 %, et dans le cadre ABCDABC \to DABCD de 92,2 % à 94,2 %. De plus, notre modèle démontre une adaptabilité et une flexibilité exceptionnelles : il maintient des performances élevées sous des paramètres de caméra inédits, peut intégrer plusieurs jeux de données avec des paramètres de caméra variés, et est capable d’apprentissage croisé de tâches sur plusieurs jeux de données. Le code source est fourni pour permettre la réimplémentation. https://github.com/liufanfanlff/RoboUniview


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp