HyperAIHyperAI
vor 11 Tagen

Äquivalent-Diffusionspolitik

Dian Wang, Stephen Hart, David Surovik, Tarik Kelestemur, Haojie Huang, Haibo Zhao, Mark Yeatman, Jiuguang Wang, Robin Walters, Robert Platt
Äquivalent-Diffusionspolitik
Abstract

Neuere Arbeiten haben gezeigt, dass Diffusionsmodelle eine effektive Herangehensweise darstellen, um die multimodalen Verteilungen zu lernen, die sich aus Demonstrationsdaten in der Verhaltensklonierung ergeben. Ein Nachteil dieses Ansatzes liegt jedoch in der Notwendigkeit, eine Entrauschungsfunktion zu lernen, die erheblich komplexer ist als die direkte Lernung einer expliziten Politik. In dieser Arbeit stellen wir Equivariant Diffusion Policy, eine neuartige Methode zum Lernen von Diffusionspolitiken, vor, die Domänen-Symmetrien nutzt, um eine bessere Stichproben-Effizienz und Generalisierbarkeit in der Entrauschungsfunktion zu erzielen. Wir analysieren theoretisch die $\mathrm{SO}(2)$-Symmetrie der vollständigen 6-DoF-Steuerung und charakterisieren, unter welchen Bedingungen ein Diffusionsmodell $\mathrm{SO}(2)$-äquivariant ist. Zudem evaluieren wir die Methode empirisch an einer Reihe von 12 Simulationsaufgaben im Rahmen von MimicGen und zeigen, dass sie im Durchschnitt eine Erfolgsrate um 21,9 Prozentpunkte höher erzielt als die Baseline-Diffusionspolitik. Wir testen die Methode zudem an einem realen System und demonstrieren, dass effektive Politiken mit vergleichsweise wenigen Trainingsbeispielen gelernt werden können, während die Baseline-Diffusionspolitik dies nicht erreicht.

Äquivalent-Diffusionspolitik | Neueste Forschungsarbeiten | HyperAI