HyperAIHyperAI
il y a 11 jours

Politique de diffusion équivariante

Dian Wang, Stephen Hart, David Surovik, Tarik Kelestemur, Haojie Huang, Haibo Zhao, Mark Yeatman, Jiuguang Wang, Robin Walters, Robert Platt
Politique de diffusion équivariante
Résumé

Les travaux récents ont montré que les modèles de diffusion constituent une approche efficace pour apprendre les distributions multimodales issues des données de démonstration dans le cadre de l’impression de comportements (behavior cloning). Toutefois, un inconvénient de cette méthode réside dans la nécessité d’apprendre une fonction de débruitage, qui s’avère nettement plus complexe que l’apprentissage d’une politique explicite. Dans ce travail, nous proposons une nouvelle méthode d’apprentissage de politique par diffusion, nommée Équivalence de diffusion (Equivariant Diffusion Policy), qui exploite les symétries du domaine afin d’améliorer l’efficacité échantillonnale et la généralisation de la fonction de débruitage. Nous analysons théoriquement la symétrie (\mathrm{SO}(2)) associée au contrôle complet en 6 degrés de liberté (6-DoF) et caractérisons les conditions sous lesquelles un modèle de diffusion est (\mathrm{SO}(2))-équivalent. Nous évaluons empiriquement notre méthode sur un ensemble de 12 tâches de simulation dans le cadre de MimicGen, et démontrons qu’elle atteint un taux de réussite moyen supérieur de 21,9 % par rapport à la méthode de référence Diffusion Policy. Nous validons également notre approche sur un système réel, ce qui montre que des politiques efficaces peuvent être apprises à partir de très peu d’échantillons d’entraînement, tandis que la méthode de référence Diffusion Policy échoue dans ce contexte.

Politique de diffusion équivariante | Articles de recherche récents | HyperAI