HyperAIHyperAI

Command Palette

Search for a command to run...

Äquivalent-Diffusionspolitik

Dian Wang Stephen Hart David Surovik Tarik Kelestemur Haojie Huang Haibo Zhao Mark Yeatman Jiuguang Wang Robin Walters Robert Platt

Zusammenfassung

Neuere Arbeiten haben gezeigt, dass Diffusionsmodelle eine effektive Herangehensweise darstellen, um die multimodalen Verteilungen zu lernen, die sich aus Demonstrationsdaten in der Verhaltensklonierung ergeben. Ein Nachteil dieses Ansatzes liegt jedoch in der Notwendigkeit, eine Entrauschungsfunktion zu lernen, die erheblich komplexer ist als die direkte Lernung einer expliziten Politik. In dieser Arbeit stellen wir Equivariant Diffusion Policy, eine neuartige Methode zum Lernen von Diffusionspolitiken, vor, die Domänen-Symmetrien nutzt, um eine bessere Stichproben-Effizienz und Generalisierbarkeit in der Entrauschungsfunktion zu erzielen. Wir analysieren theoretisch die SO(2)\mathrm{SO}(2)SO(2)-Symmetrie der vollständigen 6-DoF-Steuerung und charakterisieren, unter welchen Bedingungen ein Diffusionsmodell SO(2)\mathrm{SO}(2)SO(2)-äquivariant ist. Zudem evaluieren wir die Methode empirisch an einer Reihe von 12 Simulationsaufgaben im Rahmen von MimicGen und zeigen, dass sie im Durchschnitt eine Erfolgsrate um 21,9 Prozentpunkte höher erzielt als die Baseline-Diffusionspolitik. Wir testen die Methode zudem an einem realen System und demonstrieren, dass effektive Politiken mit vergleichsweise wenigen Trainingsbeispielen gelernt werden können, während die Baseline-Diffusionspolitik dies nicht erreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Äquivalent-Diffusionspolitik | Paper | HyperAI