Command Palette
Search for a command to run...
Faster VoxelPose: Echtzeit-3D-Menschenpose-Schätzung durch orthogonale Projektion
Faster VoxelPose: Echtzeit-3D-Menschenpose-Schätzung durch orthogonale Projektion
Hang Ye Wentao Zhu Chunyu Wang Rujie Wu Yizhou Wang
Zusammenfassung
Obwohl voxelbasierte Methoden für die 3D-Gesten-Schätzung mehrerer Personen aus mehreren Kameras vielversprechende Ergebnisse erzielt haben, leiden sie unter erheblichem Rechenaufwand, insbesondere bei großen Szenen. Wir stellen Faster VoxelPose vor, um diese Herausforderung zu bewältigen, indem wir das Feature-Volumen auf die drei zweidimensionalen Koordinatenebenen projizieren und die X-, Y- und Z-Koordinaten getrennt daraus schätzen. Dazu lokalisieren wir zunächst jede Person mittels eines 3D-Bounding-Boxes, indem wir eine 2D-Box und deren Höhe basierend auf den Volumenfeatures, die jeweils auf die xy-Ebene und die z-Achse projiziert wurden, schätzen. Anschließend schätzen wir für jede Person die Teilkoordinaten der Gelenke separat aus den drei Koordinatenebenen und fassen diese dann zu einer finalen 3D-Gestenposition zusammen. Die Methode verzichtet auf aufwendige 3D-CNNs und beschleunigt VoxelPose um das Zehnfache, während sie gleichzeitig eine konkurrenzfähige Genauigkeit im Vergleich zu aktuellen State-of-the-Art-Methoden erreicht – was ihre Eignung für Anwendungen in Echtzeit unterstreicht.