HyperAIHyperAI

Command Palette

Search for a command to run...

Acteur diffuseur 3D : diffusion de politiques avec des représentations de scènes 3D

and Katerina Fragkiadaki Nikolaos Gkanatsios* Tsung-Wei Ke*

Résumé

Nous combinons les politiques de diffusion et les représentations 3D des scènes pour la manipulation robotique. Les politiques de diffusion apprennent la distribution des actions conditionnellement à l’état du robot et de l’environnement à l’aide de modèles de diffusion conditionnels. Elles se sont récemment révélées supérieures, en termes de performance, aux méthodes déterministes ainsi qu’aux approches alternatives d’apprentissage de distributions d’actions conditionnelles à l’état. Les politiques robotiques 3D exploitent des représentations de caractéristiques de scène 3D, obtenues à partir d’une ou plusieurs vues caméra en combinant des données de profondeur captées. Elles ont démontré une meilleure généralisation que leurs homologues 2D, notamment à travers différentes perspectives caméra. Nous unifions ces deux approches et introduisons 3D Diffuser Actor, une architecture de politique neuronale qui, à partir d’une instruction linguistique, construit une représentation 3D de la scène visuelle et s’en sert pour débruiter itérativement, en 3D, les rotations et translations de l’extrémité du robot. À chaque itération de débruitage, notre modèle représente les estimations de posture de l’extrémité comme des « tokens » scènes 3D, puis prédit, pour chacun d’eux, l’erreur de translation et de rotation en les caractérisant à l’aide d’une attention relative 3D par rapport à d’autres tokens visuels et linguistiques 3D. 3D Diffuser Actor établit un nouveau record sur le benchmark RLBench, avec une amélioration absolue de 16,3 % par rapport à l’état de l’art actuel dans un cadre à plusieurs vues, et une amélioration absolue de 13,1 % dans un cadre à une seule vue. Sur le benchmark CALVIN, il surpasser l’état de l’art actuel dans le cadre de la généralisation à des scènes inédites en situation zéro-shot, en réussissant à exécuter 0,2 tâches supplémentaires, soit une augmentation relative de 7 %. Il fonctionne également dans le monde réel à partir de très peu d’exemples. Nous analysons les choix architecturaux de notre modèle, notamment la caractérisation 3D de la scène et l’attention relative 3D, et montrons qu’ils contribuent tous deux à améliorer la généralisation. Nos résultats suggèrent que les représentations 3D de scène et les modèles génératifs puissants sont des éléments clés pour un apprentissage efficace des robots à partir d’exemples.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp