RVT: Robotic View Transformer für die 3D-Objektmanipulation

Bei der 3D-Objektmanipulation erzielen Methoden, die eine explizite 3D-Darstellung nutzen, bessere Ergebnisse als solche, die ausschließlich auf Kamerasignale angewiesen sind. Die Verwendung expliziter 3D-Darstellungen wie Voxel-Netze ist jedoch mit hohen Rechenkosten verbunden, was die Skalierbarkeit negativ beeinflusst. In dieser Arbeit präsentieren wir RVT, einen Multi-View-Transformer für die 3D-Manipulation, der sowohl skalierbar als auch präzise ist. Zu den zentralen Merkmalen von RVT gehört ein Aufmerksamkeitsmechanismus zur Aggregation von Informationen über verschiedene Ansichten sowie die Nachrenderung der Kameradaten aus virtuellen Blickwinkeln im Bereich des Roboters. In Simulationen zeigt sich, dass ein einzelnes RVT-Modell bei 18 RLBench-Aufgaben mit insgesamt 249 Aufgabenvariationen gut funktioniert und eine um 26 % höhere relative Erfolgsrate erreicht als die derzeit beste State-of-the-Art-Methode (PerAct). Zudem trainiert RVT 36-mal schneller als PerAct, um die gleiche Leistung zu erzielen, und erreicht eine 2,3-fach höhere Inferenzgeschwindigkeit. Darüber hinaus kann RVT eine Vielzahl von Manipulationsaufgaben in der realen Welt mit lediglich wenigen (ca. 10) Demonstrationen pro Aufgabe bewältigen. Visuelle Ergebnisse, der Quellcode und das trainierte Modell sind unter https://robotic-view-transformer.github.io/ verfügbar.