HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 3 mois

Acteur diffuseur 3D : diffusion de politiques avec des représentations de scènes 3D

Résumé

Nous combinons les politiques de diffusion et les représentations 3D des scènes pour la manipulation robotique. Les politiques de diffusion apprennent la distribution des actions conditionnellement à l’état du robot et de l’environnement à l’aide de modèles de diffusion conditionnels. Elles se sont récemment révélées supérieures, en termes de performance, aux méthodes déterministes ainsi qu’aux approches alternatives d’apprentissage de distributions d’actions conditionnelles à l’état. Les politiques robotiques 3D exploitent des représentations de caractéristiques de scène 3D, obtenues à partir d’une ou plusieurs vues caméra en combinant des données de profondeur captées. Elles ont démontré une meilleure généralisation que leurs homologues 2D, notamment à travers différentes perspectives caméra. Nous unifions ces deux approches et introduisons 3D Diffuser Actor, une architecture de politique neuronale qui, à partir d’une instruction linguistique, construit une représentation 3D de la scène visuelle et s’en sert pour débruiter itérativement, en 3D, les rotations et translations de l’extrémité du robot. À chaque itération de débruitage, notre modèle représente les estimations de posture de l’extrémité comme des « tokens » scènes 3D, puis prédit, pour chacun d’eux, l’erreur de translation et de rotation en les caractérisant à l’aide d’une attention relative 3D par rapport à d’autres tokens visuels et linguistiques 3D. 3D Diffuser Actor établit un nouveau record sur le benchmark RLBench, avec une amélioration absolue de 16,3 % par rapport à l’état de l’art actuel dans un cadre à plusieurs vues, et une amélioration absolue de 13,1 % dans un cadre à une seule vue. Sur le benchmark CALVIN, il surpasser l’état de l’art actuel dans le cadre de la généralisation à des scènes inédites en situation zéro-shot, en réussissant à exécuter 0,2 tâches supplémentaires, soit une augmentation relative de 7 %. Il fonctionne également dans le monde réel à partir de très peu d’exemples. Nous analysons les choix architecturaux de notre modèle, notamment la caractérisation 3D de la scène et l’attention relative 3D, et montrons qu’ils contribuent tous deux à améliorer la généralisation. Nos résultats suggèrent que les représentations 3D de scène et les modèles génératifs puissants sont des éléments clés pour un apprentissage efficace des robots à partir d’exemples.

Dépôts de code

nickgkan/3d_diffuser_actor
pytorch
Mentionné dans GitHub

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Acteur diffuseur 3D : diffusion de politiques avec des représentations de scènes 3D | Articles de recherche | HyperAI