HyperAIHyperAI
vor 16 Tagen

Light3DPose: Echtzeit-Multi-Person-3D-Pose-Schätzung aus mehreren Ansichten

Alessio Elmi, Davide Mazzini, Pietro Tortella
Light3DPose: Echtzeit-Multi-Person-3D-Pose-Schätzung aus mehreren Ansichten
Abstract

Wir präsentieren einen Ansatz zur 3D-Gesten-Schätzung mehrerer Personen aus wenigen kalibrierten Kamerasichtfeldern. Unser Architekturansatz nutzt die kürzlich vorgeschlagene Unprojection-Schicht, um Feature-Maps aus einem 2D-Gestenschatzungs-Backbone zu einer umfassenden Darstellung der 3D-Szene zu aggregieren. Diese Zwischendarstellung wird anschließend durch ein voll-konvolutionales volumetrisches Netzwerk sowie eine Dekodierstufe verfeinert, um 3D-Skelette mit sub-voxelgenauer Genauigkeit zu extrahieren. Unser Verfahren erreicht auf dem CMU Panoptic-Datensatz den Stand der Technik hinsichtlich des MPJPE (Mean Per Joint Position Error) unter Verwendung nur weniger bisher nicht gesehener Blickwinkel und liefert auch bei lediglich einer Eingabeblickrichtung konkurrenzfähige Ergebnisse. Zudem bewerten wir die Transfer-Lernfähigkeit des Modells anhand des öffentlich verfügbaren Shelf-Datensatzes und erreichen dabei gute Leistungsmaße. Der vorgeschlagene Ansatz ist inhärent effizient: Als reiner Bottom-up-Ansatz ist er rechnerisch unabhängig von der Anzahl der Personen in der Szene. Zudem, obwohl sich die Rechenlast des 2D-Teils linear mit der Anzahl der Eingabeblickrichtungen vergrößert, kann die Gesamtarchitektur einen äußerst leichten 2D-Backbone nutzen, der um Größenordnungen schneller ist als das volumetrische Gegenstück, was zu einer schnellen Inferenzzeit führt. Das System läuft mit 6 FPS und verarbeitet bis zu 10 Kamerasichtfelder gleichzeitig auf einer einzigen 1080Ti-GPU.

Light3DPose: Echtzeit-Multi-Person-3D-Pose-Schätzung aus mehreren Ansichten | Neueste Forschungsarbeiten | HyperAI