HyperAIHyperAI
vor 2 Monaten

3D-Human-Pose-Schätzung aus einem einzelnen Bild durch Regressionsanalyse der Distanzmatrix

Francesc Moreno-Noguer
3D-Human-Pose-Schätzung aus einem einzelnen Bild durch Regressionsanalyse der Distanzmatrix
Abstract

Dieses Papier behandelt das Problem der 3D-Pose-Schätzung von Menschen aus einem einzelnen Bild. Wir folgen einem standardisierten Zweischritt-Prozess, bei dem wir zunächst die 2D-Position der $N$ Körperteile detektieren und dann diese Beobachtungen verwenden, um die 3D-Pose zu inferieren. Für den ersten Schritt nutzen wir einen neueren CNN-basierten Detektor. Bei dem zweiten Schritt führen die meisten existierenden Ansätze eine 2$N$-zu-3$N$ Regression der kartesischen Gelenkkoordinaten durch. Wir zeigen, dass präzisere Pose-Schätzungen durch die Darstellung sowohl der 2D- als auch der 3D-Menschposes mittels $N \times N$ Distanzmatrizen und die Formulierung des Problems als 2D-zu-3D Distanzmatrixregression erzielt werden können. Zum Lernen eines solchen Regressors nutzen wir einfache Neuronale Netzarchitekturen, die strukturell die Positivität und Symmetrie der vorhergesagten Matrizen erzwingen. Dieser Ansatz hat zudem den Vorteil, fehlende Beobachtungen natürlicher zu verarbeiten und es ermöglicht, die Position nicht beobachteter Gelenke zu hypothetisieren. Quantitative Ergebnisse auf den Datensätzen Humaneva und Human3.6M demonstrieren konsistente Leistungsverbesserungen im Vergleich zum Stand der Technik. Eine qualitative Bewertung anhand von wilden Bildern des LSP-Datensatzes, wobei der Regressor auf Human3.6M trainiert wurde, zeigt sehr vielversprechende Generalisierungsergebnisse.