Die Nutzung zeitlicher Informationen für die 3D-Pose-Schätzung

In dieser Arbeit adressieren wir das Problem der 3D-Pose-Schätzung aus einer Sequenz von 2D-Menschposes. Obwohl der jüngste Erfolg tiefster Netze viele der modernsten Methoden zur 3D-Pose-Schätzung dazu geführt hat, tiefere Netze von Anfang bis Ende zu trainieren, um direkt aus Bildern vorherzusagen, haben die besten Ansätze die Effektivität gezeigt, die Aufgabe der 3D-Pose-Schätzung in zwei Schritte aufzuteilen: die Verwendung eines modernen 2D-Pose-Schätzers, um die 2D-Posen aus Bildern zu schätzen, und anschließend deren Abbildung in den 3D-Raum. Sie haben auch gezeigt, dass eine niedrigdimensionale Darstellung wie die 2D-Lokationen eines Satzes von Gelenken diskriminativ genug sein kann, um mit hoher Genauigkeit die 3D-Posen zu schätzen. Allerdings führt die Schätzung der 3D-Posen für einzelne Frames aufgrund unabhängiger Fehler in jedem Frame zu zeitlich inkonsistenten Schätzungen und Ruckeln (jitter). Daher nutzen wir in dieser Arbeit die zeitliche Information über eine Sequenz von 2D-Gelenkpositionen, um eine Sequenz von 3D-Posen zu schätzen. Wir haben ein sequenzbasiertes Netzwerk entwickelt, das aus schichtnormalisierten LSTM-Einheiten besteht und Abkürzungsverbindungen (shortcut connections) auf der Dekodierseite besitzt, die Eingang und Ausgang verbinden. Während des Trainings haben wir eine zeitliche Glättungsbedingung (temporal smoothness constraint) auferlegt. Wir fanden heraus, dass das Wissen über zeitliche Konsistenz das beste bisher gemeldete Ergebnis im Human3.6M-Datensatz um etwa (12.2\%) verbessert und unser Netzwerk dabei unterstützt, zeitlich konsistente 3D-Posen über eine Sequenz von Bildern wiederherzustellen, selbst wenn der 2D-Pose-Detektor versagt.