HyperAIHyperAI
vor 16 Tagen

Mehrpersonen-3D-Menschenpose-Schätzung aus monokularen Bildern

Rishabh Dabral, Nitesh B Gundavarapu, Rahul Mitra, Abhishek Sharma, Ganesh Ramakrishnan, Arjun Jain
Mehrpersonen-3D-Menschenpose-Schätzung aus monokularen Bildern
Abstract

Die Schätzung mehrerer 3D-Gesten von Menschen aus einer einzigen Bildaufnahme stellt eine herausfordernde Aufgabe dar, insbesondere in realen Umgebungen (in-the-wild), aufgrund des Mangels an 3D-annotierten Datensätzen. Wir stellen HG-RCNN vor, ein auf Mask-RCNN basierendes Netzwerk, das zudem die Vorteile der Hourglass-Architektur für die Schätzung mehrerer 3D-Menschengesten nutzt. Es wird ein zweistufiger Ansatz vorgestellt, der zunächst die 2D-Gelenkpunkte innerhalb jeder Region of Interest (RoI) schätzt und anschließend die geschätzten Gelenkpunkte in 3D transformiert. Schließlich werden die geschätzten 3D-Gesten unter Verwendung der Annahme einer schwachen Perspektive (weak-perspective projection) in Kamerakoordinaten platziert und gleichzeitig Fokallänge sowie Wurzelverschiebungen durch gemeinsame Optimierung bestimmt. Das Ergebnis ist ein einfaches und modulares Netzwerk für die Schätzung mehrerer 3D-Menschengesten, das keinerlei Datensätze mit mehreren 3D-Gesten benötigt. Trotz seiner einfachen Formulierung erreicht HG-RCNN state-of-the-art Ergebnisse auf dem MuPoTS-3D-Datensatz und ermöglicht gleichzeitig eine Approximation der 3D-Gesten im Kamerakoordinatensystem.

Mehrpersonen-3D-Menschenpose-Schätzung aus monokularen Bildern | Neueste Forschungsarbeiten | HyperAI