Command Palette
Search for a command to run...
Ausnutzung zeitlicher Informationen für die 3D-Gestenbewegungsschätzung
Ausnutzung zeitlicher Informationen für die 3D-Gestenbewegungsschätzung
James J. Little Mir Rayat Imtiaz Hossain
Zusammenfassung
In dieser Arbeit behandeln wir das Problem der 3D-Gesten-Schätzung aus einer Sequenz von 2D-Gesten. Obwohl die jüngsten Fortschritte in tiefen neuronalen Netzen dazu geführt haben, dass viele state-of-the-art-Methoden zur 3D-Gesten-Schätzung tiefgehende Netzwerke end-to-end trainieren, um direkt aus Bildern vorherzusagen, haben die besten Ansätze gezeigt, dass die Aufgabe der 3D-Gesten-Schätzung effektiv in zwei Schritte aufgeteilt werden kann: Zunächst wird mit einem state-of-the-art-2D-Gesten-Schätzer die 2D-Gesten aus Bildern geschätzt, und anschließend werden diese in den 3D-Raum abgebildet. Zudem zeigten sie, dass eine niedrigdimensionale Darstellung, wie beispielsweise die 2D-Koordinaten einer festen Menge von Gelenken, ausreichend diskriminativ sein kann, um mit hoher Genauigkeit 3D-Gesten zu schätzen. Allerdings führt die Schätzung der 3D-Gesten für einzelne Frames aufgrund unabhängiger Fehler in jedem Frame zu temporär inkonsistenten Schätzungen, was zu Zittern führt. Daher nutzen wir in dieser Arbeit die zeitliche Information über eine Sequenz von 2D-Gelenkpositionen, um eine Sequenz von 3D-Gesten zu schätzen. Wir haben ein sequenz-zu-Sequenz-Netzwerk entworfen, das aus layer-normalisierten LSTM-Einheiten besteht und mit Shortcut-Verbindungen zwischen Eingabe und Ausgabe auf der Dekodierseite ausgestattet ist, sowie während des Trainings eine zeitliche Glättungsbedingung vorgegeben wird. Wir fanden, dass das Wissen über zeitliche Konsistenz das bestgegebene Ergebnis auf dem Human3.6M-Datensatz um etwa 12,2 % verbessert und unserem Netzwerk hilft, auch dann temporär konsistente 3D-Gesten über eine Bildsequenz zu rekonstruieren, wenn der 2D-Gesten-Detektor versagt.