Politique de Diffusion 3D : Apprentissage de politiques visuomotrices généralisables via des représentations 3D simples

L’apprentissage par imitation offre une méthode efficace pour enseigner aux robots des compétences habiles ; toutefois, l’apprentissage robuste et généralisable de compétences complexes nécessite généralement une grande quantité de démonstrations humaines. Pour relever ce défi, nous proposons DP3 (3D Diffusion Policy), une nouvelle approche d’apprentissage par imitation visuelle qui intègre la puissance des représentations visuelles 3D dans les politiques de diffusion, une catégorie de modèles génératifs d’actions conditionnelles. La conception centrale de DP3 repose sur l’utilisation d’une représentation visuelle 3D compacte, extraite à partir de nuages de points épars grâce à un encodeur de points efficace. Dans nos expériences menées sur 72 tâches en simulation, DP3 parvient à maîtriser la majorité des tâches avec seulement 10 démonstrations, dépassant les méthodes de référence avec une amélioration relative de 24,2 %. Sur 4 tâches réelles impliquant des robots, DP3 démontre un contrôle précis avec un taux de réussite élevé de 85 %, en se basant uniquement sur 40 démonstrations par tâche, tout en exhibant d’excellentes capacités de généralisation dans divers aspects, notamment l’espace, le point de vue, l’apparence et l’instance. De manière intéressante, lors des expériences sur robots réels, DP3 respecte rarement les exigences de sécurité, contrairement aux méthodes de référence qui les enfreignent fréquemment, nécessitant ainsi une intervention humaine. Notre évaluation approfondie met en évidence l’importance cruciale des représentations 3D dans l’apprentissage robotique en situation réelle. Des vidéos, du code et des données sont disponibles à l’adresse https://3d-diffusion-policy.github.io.