Imitation Learning für die Vorhersage menschlicher Körperhaltungen

Die Modellierung und Vorhersage der menschlichen Bewegungsdynamik stellt in der Computer Vision seit langem eine herausfordernde Aufgabe dar, wobei die meisten bestehenden Methoden auf der end-to-end überwachten Trainings von verschiedenen Architekturen rekurrenter neuronalen Netze basieren. Inspiriert durch den jüngsten Erfolg von Deep Reinforcement Learning-Verfahren stellen wir in diesem Artikel eine neue Formulierung des Problems der menschlichen Pose-Vorhersage mittels Verstärkungslernen vor und entwickeln einen Nachahmungslernalgorithmus zur Vorhersage zukünftiger Pose unter dieser Formulierung durch eine Kombination aus Verhaltensklonung und generativ adversarialer Nachahmungslernmethode. Unsere Experimente zeigen, dass unsere vorgeschlagene Methode sowohl bei kurzfristigen als auch bei langfristigen Vorhersagen der menschlichen Pose alle bestehenden State-of-the-Art-Baselines deutlich übertrifft, während sie zudem erhebliche Vorteile hinsichtlich der Trainingsgeschwindigkeit bietet.