HyperAIHyperAI

Command Palette

Search for a command to run...

Perceiver-Actor: Ein Multi-Task-Transformer für die robotische Manipulation

Mohit Shridhar Lucas Manuelli Dieter Fox

Zusammenfassung

Transformers haben die Bildverarbeitung und die Verarbeitung natürlicher Sprache durch ihre Skalierbarkeit angesichts großer Datensätze revolutioniert. Doch bei der roboterbasierten Manipulation sind Daten sowohl begrenzt als auch kostspielig. Kann die Manipulation dennoch von Transformers profitieren, wenn das Problem angemessen formuliert wird? Wir untersuchen diese Frage anhand von PerAct, einem sprachgesteuerten, verhaltensbasierten Klon-Agenten für mehrfachgestellte 6-DoF-Manipulation. PerAct kodiert Sprachziele und RGB-D-Voxelbeobachtungen mittels eines Perceiver-Transformers und generiert diskrete Aktionen durch die „Erkennung der nächsten besten Voxel-Aktion“. Im Gegensatz zu Ansätzen, die auf 2D-Bildern arbeiten, bietet der voxelisierte 3D-Beobachtungs- und Aktionsraum eine starke strukturelle Priorität, die die effiziente Lernung von 6-DoF-Aktionen ermöglicht. Mit dieser Formulierung trainieren wir einen einzigen, mehrfach nutzbaren Transformer für 18 RLBench-Aufgaben (mit 249 Variationen) und 7 realweltbasierte Aufgaben (mit 18 Variationen) – jeweils aus nur wenigen Demonstrationen pro Aufgabe. Unsere Ergebnisse zeigen, dass PerAct eine deutlich bessere Leistung erzielt als unstrukturierte Bild-zu-Aktion-Agenten sowie 3D-ConvNet-Baselines bei einer Vielzahl von Tisch-Aufgaben.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp