PolarNet: 3D-Punktwolken für sprachgesteuerte robotische Manipulation

Die Fähigkeit von Robotern, Manipulationsaufgaben auf Basis natürlicher Sprachanweisungen zu verstehen und auszuführen, ist ein langfristiges Ziel in der Robotik. Die vorherrschenden Ansätze für sprachgesteuerte Manipulation verwenden 2D-Bildrepräsentationen, die Schwierigkeiten haben, mehrere Kamerasichten zu kombinieren und präzise 3D-Positionen und -Beziehungen abzuleiten. Um diese Einschränkungen zu überwinden, schlagen wir eine auf 3D-Punktwolken basierende Politik namens PolarNet für sprachgesteuerte Manipulation vor. Sie nutzt sorgfältig gestaltete Punktwolken-Eingaben, effiziente Punktwolken-Codierer und multimodale Transformer, um 3D-Punktwolken-Repräsentationen zu erlernen und diese mit Sprachanweisungen zur Aktionserkennung zu integrieren. In einer Reihe von Experimenten am RLBench-Benchmark wurde gezeigt, dass PolarNet effektiv und dateneffizient ist. Es übertrifft sowohl bei der Einzel- als auch bei der Mehrfachaufgaben-Lernmethode die besten bisher bekannten 2D- und 3D-Ansätze. Zudem erzielt es vielversprechende Ergebnisse bei Tests mit einem echten Roboter.