HyperAIHyperAI

Command Palette

Search for a command to run...

vor 3 Monaten

3D Diffuser Actor: Politikdiffusion mit 3D-Szenendarstellungen

Abstract

Wir kombinieren Diffusionspolitiken mit 3D-Szenenrepräsentationen für die Robotermanipulation. Diffusionspolitiken lernen die Aktionsverteilung bedingt auf den Zustand des Roboters und der Umgebung mithilfe bedingter Diffusionsmodelle. In jüngster Zeit haben sie sich gegenüber deterministischen sowie alternativen Methoden zur Lernung von zustandsbedingten Aktionsverteilungen als überlegen erwiesen. 3D-Roboterpolitiken nutzen 3D-Szenenmerkmalsrepräsentationen, die aus einer einzelnen oder mehreren Kamerasichten unter Verwendung von erfasstem Tiefeninformation aggregiert werden. Sie haben sich gegenüber ihren 2D-Gegenstücken hinsichtlich der Generalisierung über verschiedene Kameraperspektiven als überlegen erwiesen. Wir vereinen diese beiden Forschungsrichtungen und stellen 3D Diffuser Actor vor, eine neuronale Politikarchitektur, die bei gegebenem Sprachbefehl eine 3D-Repräsentation der visuellen Szene aufbaut und diese zur iterativen Entrauschung von 3D-Drehungen und -Translationen für den Endeffektor des Roboters nutzt. In jeder Entrauschungsschritt repräsentieren wir die Schätzung der Endeffektorpose als 3D-Szenentoken und schätzen für jedes dieser Tokens den 3D-Translations- und Rotationsfehler vor, indem wir sie mittels 3D-relativer Aufmerksamkeit gegenüber anderen 3D-visuellen und sprachlichen Tokens featurisieren. 3D Diffuser Actor erreicht eine neue State-of-the-Art-Leistung auf RLBench mit einer absoluten Verbesserung von 16,3 % gegenüber der aktuellen SOTA im Mehrkameramodus und einer absoluten Steigerung von 13,1 % im Einzelkameramodus. Auf der CALVIN-Benchmark-Plattform übertrifft es die aktuelle SOTA im Szenario der zero-shot-Unseen-Scene-Generalisierung, indem es 0,2 weitere Aufgaben erfolgreich ausführen kann – eine relative Steigerung um 7 %. Zudem funktioniert das Modell bereits in der realen Welt auf Basis nur weniger Demonstrationen. Wir analysieren die architektonischen Entscheidungen unseres Modells, wie beispielsweise die 3D-Szenenfeaturisierung und die 3D-relationale Aufmerksamkeit, und zeigen, dass alle diese Komponenten zur Verbesserung der Generalisierung beitragen. Unsere Ergebnisse deuten darauf hin, dass 3D-Szenenrepräsentationen sowie leistungsfähige generative Modellierung Schlüsselkomponenten für eine effiziente Robotermanipulation aus Demonstrationen sind.

Code-Repositories

nickgkan/3d_diffuser_actor
pytorch
In GitHub erwähnt

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
3D Diffuser Actor: Politikdiffusion mit 3D-Szenendarstellungen | Forschungsarbeiten | HyperAI