Wiederkehrende 3D-Pose-Sequenz-Maschinen

Die Wiederherstellung der 3D-artikulierten menschlichen Pose aus monoaularen Bildsequenzen ist aufgrund der vielfältigen Erscheinungsformen, Betrachtungswinkel, Verdeckungen und der inhärenten Ambiguität der menschlichen 3D-Pose in monoaularen Bildern sehr herausfordernd. Es ist daher entscheidend, umfangreiche räumliche und zeitliche Fernabhängigkeiten zwischen den Körpergelenken zu nutzen, um genaue Vorhersagen von 3D-Pose-Sequenzen zu ermöglichen. Bestehende Ansätze entwerfen in der Regel manuell detaillierte a-priori-Terme und kinematische Restriktionen des menschlichen Körpers zur Erfassung von Strukturen, die jedoch oft nicht ausreichend sind, um alle intrinsischen Strukturen zu erfassen und für alle Szenarien skalierbar zu sein. Im Gegensatz dazu präsentiert dieser Artikel eine Rekurrente 3D-Pose-Sequenz-Maschine (RPSM), die durch mehrstufige sequentielle Verfeinerung automatisch lernen kann, bildabhängige strukturelle Restriktionen und sequenzabhängige zeitliche Kontexte zu erkennen. In jedem Stadium besteht unsere RPSM aus drei Modulen, um die 3D-Pose-Sequenzen basierend auf den bereits gelernten 2D-Pose-Darstellungen und 3D-Posen vorherzusagen: (i) ein 2D-Pose-Modul zur Extraktion bildabhängiger Pose-Darstellungen, (ii) ein rekurrentes 3D-Pose-Modul zur Regression von 3D-Posen und (iii) ein Merkmalsanpassungsmodul als Brücke zwischen Modul (i) und (ii), das die Transformation der Darstellung vom 2D- ins 3D-Bereich ermöglicht. Diese drei Module werden dann in einen sequentiellen Vorhersagerahmen integriert, um die vorhergesagten Posen durch mehrere rekurrente Stufen zu verfeinern. Ausführliche Evaluierungen anhand des Human3.6M-Datensatzes und des HumanEva-I-Datensatzes zeigen, dass unsere RPSM alle aktuellen Stand-of-the-Art-Ansätze für die 3D-Pose-Schätzung übertrifft.