HyperAIHyperAI

Command Palette

Search for a command to run...

Ausnutzung zeitlicher Informationen für die 3D-Gestenbewegungsschätzung

James J. Little Mir Rayat Imtiaz Hossain

Zusammenfassung

In dieser Arbeit behandeln wir das Problem der 3D-Gesten-Schätzung aus einer Sequenz von 2D-Gesten. Obwohl die jüngsten Fortschritte in tiefen neuronalen Netzen dazu geführt haben, dass viele state-of-the-art-Methoden zur 3D-Gesten-Schätzung tiefgehende Netzwerke end-to-end trainieren, um direkt aus Bildern vorherzusagen, haben die besten Ansätze gezeigt, dass die Aufgabe der 3D-Gesten-Schätzung effektiv in zwei Schritte aufgeteilt werden kann: Zunächst wird mit einem state-of-the-art-2D-Gesten-Schätzer die 2D-Gesten aus Bildern geschätzt, und anschließend werden diese in den 3D-Raum abgebildet. Zudem zeigten sie, dass eine niedrigdimensionale Darstellung, wie beispielsweise die 2D-Koordinaten einer festen Menge von Gelenken, ausreichend diskriminativ sein kann, um mit hoher Genauigkeit 3D-Gesten zu schätzen. Allerdings führt die Schätzung der 3D-Gesten für einzelne Frames aufgrund unabhängiger Fehler in jedem Frame zu temporär inkonsistenten Schätzungen, was zu Zittern führt. Daher nutzen wir in dieser Arbeit die zeitliche Information über eine Sequenz von 2D-Gelenkpositionen, um eine Sequenz von 3D-Gesten zu schätzen. Wir haben ein sequenz-zu-Sequenz-Netzwerk entworfen, das aus layer-normalisierten LSTM-Einheiten besteht und mit Shortcut-Verbindungen zwischen Eingabe und Ausgabe auf der Dekodierseite ausgestattet ist, sowie während des Trainings eine zeitliche Glättungsbedingung vorgegeben wird. Wir fanden, dass das Wissen über zeitliche Konsistenz das bestgegebene Ergebnis auf dem Human3.6M-Datensatz um etwa 12,2 % verbessert und unserem Netzwerk hilft, auch dann temporär konsistente 3D-Gesten über eine Bildsequenz zu rekonstruieren, wenn der 2D-Gesten-Detektor versagt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Ausnutzung zeitlicher Informationen für die 3D-Gestenbewegungsschätzung | Paper | HyperAI