Neuronale dynamische Politiken für den end-to-end Sensorimotor-Lernprozess

Der derzeit vorherrschende Ansatz in der sensorimotorischen Steuerung, sei es durch Nachahmung (imitation learning) oder Verstärkungslernen (reinforcement learning), besteht darin, Policy-Modelle direkt im rohen Aktionsraum – beispielsweise in Form von Drehmomenten, Gelenkwinkeln oder Endeffektorpositionen – zu trainieren. Dies zwingt das Agens, bei jedem Zeitschritt unabhängig Entscheidungen zu treffen, was die Skalierbarkeit auf kontinuierliche, hochdimensionale und langfristige Aufgaben erheblich einschränkt. Im Gegensatz dazu hat die klassische Robotik seit langem dynamische Systeme als Policy-Repräsentation genutzt, um Roboter-Verhaltensweisen über Demonstrationen zu erlernen. Diese Ansätze fehlen jedoch an der Flexibilität und Generalisierbarkeit, die durch tiefe neuronale Netze oder Verstärkungslernen bereitgestellt werden, und wurden in diesen Kontexten bislang wenig erforscht. In dieser Arbeit beginnen wir, diese Lücke zu schließen, indem wir die Struktur eines dynamischen Systems in tiefen neuronalen Netzwerk-basierten Policies integrieren, indem wir die Aktionsräume mittels zweiter Ordnung Differentialgleichungen umparametrisieren. Wir stellen Neural Dynamic Policies (NDPs) vor, die Vorhersagen im Raum von Trajektorienverteilungen treffen, im Gegensatz zu herkömmlichen Ansätzen, bei denen die Aktionen den rohen Steuerungsraum repräsentieren. Die eingebettete Struktur ermöglicht eine end-to-end Policy-Lernung sowohl in Reinforcement- als auch in Imitationslern-Setups. Wir zeigen, dass NDPs gegenüber dem vorherigen Stand der Technik in Bezug auf Effizienz oder Leistung in mehreren robotersteuerungsspezifischen Aufgaben sowohl im Imitations- als auch im Reinforcement-Lern-Kontext überlegen sind. Ein Projektvideo und der Quellcode sind unter https://shikharbahl.github.io/neural-dynamic-policies/ verfügbar.