3D Diffusion Policy: Verallgemeinerbare visuomotorische Politiklernen durch einfache 3D-Repräsentationen

Imitation Learning bietet eine effiziente Methode, um Robotern dexteröse Fähigkeiten beizubringen; dennoch erfordert die robuste und generalisierbare Lernung komplexer Fähigkeiten häufig eine große Anzahl menschlicher Demonstrationen. Um dieses anspruchsvolle Problem anzugehen, präsentieren wir 3D Diffusion Policy (DP3), einen neuartigen Ansatz für visuelles Imitationslernen, der die Stärke von 3D-visuellen Repräsentationen in Diffusionspolitiken – einer Klasse bedingter Aktions-Generativmodelle – integriert. Das zentrale Design von DP3 basiert auf der Nutzung einer kompakten 3D-visuellen Repräsentation, die aus spärlichen Punktwolken mit einem effizienten Punktkodierer extrahiert wird. In unseren Experimenten mit 72 Simulationsaufgaben bewältigt DP3 die meisten Aufgaben bereits mit nur 10 Demonstrationen und erreicht gegenüber den Baseline-Methoden eine relative Verbesserung um 24,2 %. Bei 4 realen Roboter-Aufgaben zeigt DP3 präzise Steuerung mit einer hohen Erfolgsrate von 85 %, wobei jeweils nur 40 Demonstrationen pro Aufgabe erforderlich sind, und demonstriert hervorragende Generalisierungsfähigkeiten in vielfältigen Aspekten wie Raum, Sichtwinkel, Erscheinungsbild und Objektinstanz. Interessanterweise verletzt DP3 in den realen Roboterexperimenten selten Sicherheitsanforderungen, im Gegensatz zu Baseline-Methoden, die dies häufig tun und somit häufig menschliche Intervention erfordern. Unsere umfassende Evaluation unterstreicht die entscheidende Bedeutung von 3D-Repräsentationen für das Lernen in der realen Welt. Videos, Code und Daten sind unter https://3d-diffusion-policy.github.io verfügbar.