Tiefes monokulares 3D-Pose-Estimation durch kaskadierte Dimensionsanhebung

Die 3D-Pose-Schätzung aus einem einzelnen Bild ist aufgrund der Tiefen-Unbestimmtheit eine herausfordernde Aufgabe. Eine Art der bisherigen Methoden hebt 2D-Gelenke, die durch den Einsatz externer 2D-Pose-Detektoren gewonnen werden, in den 3D-Raum. Allerdings verwerfen diese Ansätze die kontextuellen Informationen der Bilder, die starke Hinweise für die 3D-Pose-Schätzung sind. Gleichzeitig verwenden andere Methoden eine 2.5D-Ausgabedarstellung (P^{2.5D} = (u,v,z^{r})), bei der sowohl (u) als auch (v) im Bildraum und (z^{r}) im wurzelrelativen 3D-Raum liegen. Daher wird in der Praxis normalerweise Bodenwahrheitsinformation (z.B., die Tiefenposition des Wurzelgelenks von der Kamera) verwendet, um die 2.5D-Ausgabe in den 3D-Raum zu transformieren, was die praktische Anwendbarkeit einschränkt. In dieser Arbeit schlagen wir einen neuen end-to-end-Framework vor, das nicht nur die kontextuellen Informationen nutzt, sondern auch direkt im 3D-Raum Ausgaben erzeugt durch kaskadierte Dimensionshebung. Insbesondere zerlegen wir die Aufgabe der Pose-Hebung vom 2D-Bildraum in den 3D-Raum in mehrere sequentielle Teilprobleme: 1) Schätzung von kinematischen Skeletten und individuellen Gelenken im 2D-Raum, 2) Schätzung der wurzelrelativen Tiefe und 3) Hebung in den 3D-Raum. Jedes dieser Teilprobleme nutzt direkte Überwachungen und kontextuelle Bildmerkmale, um den Lernprozess zu steuern. Umfangreiche Experimente zeigen, dass das vorgeschlagene Framework auf zwei weit verbreiteten Datensätzen für die 3D-Mensch-Posenerkennung (Human3.6M und MuPoTS-3D) den aktuellen Stand der Technik erreicht.请注意,这里“end-to-end”被翻译为“end-to-end”,因为这是在科技领域中广泛使用的术语,通常不会进行本地化翻译。其他术语如“kinematic skeletons”(kinematische Skelette)和“individual joints”(individuelle Gelenke)也采用了通用的德语译法。