HyperAIHyperAI
vor 2 Monaten

Wahrscheinlichkeitstheoretische monokulare 3D-Pose-Schätzung von Menschen mit Normalizing Flows

Wehrbein, Tom ; Rudolph, Marco ; Rosenhahn, Bodo ; Wandt, Bastian
Wahrscheinlichkeitstheoretische monokulare 3D-Pose-Schätzung von Menschen mit Normalizing Flows
Abstract

Die Schätzung der 3D-Haltung von Menschen aus monoökularen Bildern ist ein hochgradig schlecht gestelltes Problem aufgrund von Tiefenunsicherheiten und Verdeckungen. Trotzdem ignorieren die meisten existierenden Arbeiten diese Unsicherheiten und schätzen nur eine einzelne Lösung. Im Gegensatz dazu generieren wir eine vielfältige Menge an Hypothesen, die die gesamte a posteriori-Verteilung der möglichen 3D-Haltungen repräsentiert. Zu diesem Zweck schlagen wir eine Methode basierend auf normalisierenden Flüssen vor, die die deterministische 3D-zu-2D-Abbildung nutzt, um das unsichere inverse 2D-zu-3D-Problem zu lösen. Zudem werden unsichere Detektionen und Verdeckungen durch die Einbeziehung von Unsicherheitsinformationen des 2D-Detektors als Bedingung effektiv modelliert. Weitere Schlüssel zur erfolgreichen Umsetzung sind ein gelerntes 3D-Haltungs-Prior und eine Verallgemeinerung des Best-of-M-Verlusts. Wir evaluieren unseren Ansatz anhand der beiden Benchmark-Datensätze Human3.6M und MPI-INF-3DHP und übertreffen alle vergleichbaren Methoden in den meisten Metriken. Die Implementierung ist auf GitHub verfügbar.