Coarse-to-Fine Q-Attention: Effizientes Lernen für visuelle robotische Manipulation durch Diskretisierung

Wir stellen eine Grob-zu-Fein-Disretisierungs-Methode vor, die die Anwendung diskreter Verstärkungslernverfahren anstelle instabiler und datenunwirksamer Actor-Critic-Methoden in kontinuierlichen Robotikdomänen ermöglicht. Dieser Ansatz baut auf dem kürzlich vorgestellten ARM-Algorithmus auf, der den kontinuierlichen nächsten optimalen Pose-Agenten durch einen diskreten ersetzt, wobei Grob-zu-Fein-Q-Attention eingesetzt wird. Gegeben eine voxelisierte Szene lernt Grob-zu-Fein-Q-Attention, welchen Bereich der Szene „vergrößert“ werden soll. Wenn dieses „Vergrößerungsverhalten“ iterativ angewendet wird, führt dies zu einer nahezu verlustfreien Diskretisierung des Translationsraums und ermöglicht die Verwendung eines diskreten Aktionen-Deep-Q-Learning-Verfahrens. Wir zeigen, dass unser neuer Grob-zu-Fein-Algorithmus auf mehreren anspruchsvollen, sparsam belohnten, visionbasierten Robotik-Aufgaben aus der RLBench-Benchmark-Suite eine state-of-the-art-Leistung erzielt und in nur wenigen Minuten reale Welt-Politiken tabula rasa mit lediglich drei Demonstrationen trainieren kann.