HyperAIHyperAI

Command Palette

Search for a command to run...

PolarNet: 3D-Punktwolken für sprachgesteuerte robotische Manipulation

Shizhe Chen Ricardo Garcia Cordelia Schmid Ivan Laptev

Zusammenfassung

Die Fähigkeit von Robotern, Manipulationsaufgaben auf Basis natürlicher Sprachanweisungen zu verstehen und auszuführen, ist ein langfristiges Ziel in der Robotik. Die vorherrschenden Ansätze für sprachgesteuerte Manipulation verwenden 2D-Bildrepräsentationen, die Schwierigkeiten haben, mehrere Kamerasichten zu kombinieren und präzise 3D-Positionen und -Beziehungen abzuleiten. Um diese Einschränkungen zu überwinden, schlagen wir eine auf 3D-Punktwolken basierende Politik namens PolarNet für sprachgesteuerte Manipulation vor. Sie nutzt sorgfältig gestaltete Punktwolken-Eingaben, effiziente Punktwolken-Codierer und multimodale Transformer, um 3D-Punktwolken-Repräsentationen zu erlernen und diese mit Sprachanweisungen zur Aktionserkennung zu integrieren. In einer Reihe von Experimenten am RLBench-Benchmark wurde gezeigt, dass PolarNet effektiv und dateneffizient ist. Es übertrifft sowohl bei der Einzel- als auch bei der Mehrfachaufgaben-Lernmethode die besten bisher bekannten 2D- und 3D-Ansätze. Zudem erzielt es vielversprechende Ergebnisse bei Tests mit einem echten Roboter.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp