PISEP^2: Pseudo Image Sequence Evolution-basierte 3D-Gestenerkennung

Die Pose-Vorhersage besteht darin, zukünftige Pose-Muster auf Basis eines Fensters vergangener Poses vorherzusagen. In diesem Artikel stellen wir ein neues Problem vor, das die Vorhersage von Poses anhand von 3D-Gelenkkoordinaten-Sequenzen ermöglicht. Im Gegensatz zur herkömmlichen Pose-Vorhersage basierend auf Mocap-Rahmen ist dieses Problem aufgrund der einfachen Sensoren, die zur Datenerfassung benötigt werden, besonders gut für reale Anwendungen geeignet. Wir präsentieren zudem einen neuen Ansatz, PISEP^2 (Pseudo Image Sequence Evolution based 3D Pose Prediction), um dieses neue Problem zu lösen. Konkret wird eine skelettartige Darstellung vorgeschlagen, bei der die Gelenkkooordinaten-Sequenz in eine Bildsequenz transformiert wird, wodurch die unterschiedlichen Korrelationen zwischen den einzelnen Gelenken effektiv modelliert werden können. Unter Verwendung dieser bildbasierten skelettartigen Darstellung wird die Pose-Vorhersage als Evolutionsprozess einer Bildsequenz formuliert. Darüber hinaus wird ein neuartiges Inferenznetzwerk vorgeschlagen, das alle zukünftigen Poses in einem einzigen Schritt vorhersagt, indem die Dekodierer nicht rekursiv, sondern entkoppelt werden. Im Vergleich zu rekursiven Sequenz-zu-Sequenz-Modellen lässt sich die Recheneffizienz erheblich steigern und eine akkumulative Fehlerverstärkung weitgehend vermeiden. Umfassende Experimente wurden auf zwei Standard-Datensätzen (z. B. G3D und FNTU) durchgeführt. Die vorgeschlagene Methode erreicht auf beiden Datensätzen den Stand der Technik, was die Wirksamkeit unseres Ansatzes eindrucksvoll belegt.