Strukturierte Vorhersage der 3D-Menschlichen Haltung mit Tiefen neuronalen Netzen

Die meisten aktuellen Ansätze zur monoaularen 3D-Pose-Schätzung basieren auf Deep Learning. Sie trainieren entweder ein Faltungsneuronales Netzwerk (Convolutional Neural Network), um direkt von Bildern zu 3D-Posen zu regredieren, was die Abhängigkeiten zwischen menschlichen Gelenken ignoriert, oder sie modellieren diese Abhängigkeiten durch einen strukturierten Lernansatz mit maximaler Marginalität (max-margin structured learning framework), der jedoch während der Inferenz hohe Rechenkosten verursacht.In dieser Arbeit stellen wir eine Deep-Learning-Regressionss Architektur vor, die strukturierte Vorhersagen von 3D-menschlicher Pose aus monoaularen Bildern ermöglicht und dabei auf einem überkomplettierten Autoencoder basiert. Dieser Autoencoder lernt eine hochdimensionale latente Pose-Darstellung und berücksichtigt die Gelenkabhängigkeiten. Wir zeigen, dass unser Ansatz sowohl hinsichtlich der Strukturbeibehaltung als auch der Vorhersagegenauigkeit den aktuellen Stand der Technik übertreffen kann.