HyperAIHyperAI
il y a 12 jours

Acteur Diffuseur 3D : Diffusion de Politique avec des Représentations de Scènes 3D

{and Katerina Fragkiadaki, Nikolaos Gkanatsios*, Tsung-Wei Ke*}
Acteur Diffuseur 3D : Diffusion de Politique avec des Représentations de Scènes 3D
Résumé

Nous combinons les politiques de diffusion et les représentations 3D de scènes pour la manipulation robotique. Les politiques de diffusion apprennent la distribution d’actions conditionnellement à l’état du robot et de l’environnement à l’aide de modèles de diffusion conditionnels. Elles ont récemment démontré une performance supérieure à celle des méthodes déterministes ainsi qu’à d’autres approches d’apprentissage de distributions d’actions conditionnelles à l’état. Les politiques robotiques 3D utilisent des représentations de caractéristiques de scène 3D agrégées à partir d’une ou plusieurs vues caméra, en exploitant les données de profondeur perçues. Elles ont montré une meilleure généralisation que leurs homologues 2D face à des points de vue caméra variés. Nous unifions ces deux approches et présentons 3D Diffuser Actor, une architecture de politique neuronale qui, à partir d’une instruction linguistique, construit une représentation 3D de la scène visuelle et en conditionne l’itération de débruitage des rotations et translations 3D pour l’extrémité du robot. À chaque itération de débruitage, notre modèle représente les estimations de pose de l’extrémité du robot sous forme de « tokens » scènes 3D, et prédit l’erreur de translation et de rotation pour chacun d’eux, en les caractérisant à l’aide d’un mécanisme d’attention relative 3D par rapport à d’autres tokens visuels et linguistiques 3D. 3D Diffuser Actor établit un nouveau état de l’art sur le benchmark RLBench, avec une amélioration absolue de 16,3 % par rapport à l’état de l’art actuel dans un cadre à plusieurs vues, et une amélioration absolue de 13,1 % dans un cadre à une seule vue. Sur le benchmark CALVIN, il surpasse l’état de l’art actuel dans le cadre de la généralisation à des scènes inconnues sans apprentissage préalable, en réussissant à exécuter 0,2 tâches supplémentaires, soit une augmentation relative de 7 %. Il fonctionne également dans le monde réel à partir d’un petit nombre de démonstrations. Nous effectuons une analyse ablation de nos choix architecturaux, notamment la caractérisation 3D de la scène et l’attention relative 3D, et montrons qu’ils contribuent tous à la généralisation. Nos résultats suggèrent que les représentations 3D de scène et les modèles génératifs puissants sont des clés essentielles pour un apprentissage robotique efficace à partir de démonstrations.

Acteur Diffuseur 3D : Diffusion de Politique avec des Représentations de Scènes 3D | Articles de recherche récents | HyperAI