HyperAIHyperAI
vor 16 Tagen

Echtzeit-Multi-View-3D-Menschenpose-Schätzung unter Verwendung semantischer Rückkopplung an intelligente Edge-Sensoren

Simon Bultmann, Sven Behnke
Echtzeit-Multi-View-3D-Menschenpose-Schätzung unter Verwendung semantischer Rückkopplung an intelligente Edge-Sensoren
Abstract

Wir präsentieren eine neuartige Methode zur Schätzung von 3D-Menschenpose aus einer Mehrkamera-Anordnung, die verteilt arbeitende intelligente Edge-Sensoren mit einer zentralen Backend-Einheit über eine semantische Rückkopplungsschleife verbindet. Die 2D-Gelenk-Detektion für jede Kameraperspektive erfolgt lokal auf einem spezialisierten eingebetteten Inferenzprozessor. Lediglich die semantische Skelett-Darstellung wird über das Netzwerk übertragen, während die Rohbilder auf der Sensorplatine verbleiben. Die 3D-Pose wird zentral im Backend aus den 2D-Gelenkpositionen mittels Triangulation und einem Körpermodell rekonstruiert, das vorherige Kenntnisse über die menschliche Skelettstruktur integriert. Eine Rückkopplungsschleife zwischen Backend und einzelnen Sensoren wird auf semantischer Ebene implementiert. Die allocentrische 3D-Pose wird in die Sensoransichten zurückprojiziert, wo sie mit den lokalen 2D-Gelenk-Detektionen verschmolzen wird. Dadurch kann das lokale semantische Modell auf jedem Sensor durch Einbeziehung globaler Kontextinformationen verbessert werden. Der gesamte Datenfluss ist in Echtzeit betreibbar. Wir evaluieren unsere Methode an drei öffentlichen Datensätzen, wobei wir state-of-the-art-Ergebnisse erzielen und die Vorteile unserer Rückkopplungsarchitektur nachweisen, sowie in unserer eigenen Multi-Person-Experimentierumgebung. Die Nutzung des Rückkopplungssignals verbessert sowohl die 2D-Gelenk-Detektionen als auch die daraus abgeleiteten 3D-Pose-Schätzungen.

Echtzeit-Multi-View-3D-Menschenpose-Schätzung unter Verwendung semantischer Rückkopplung an intelligente Edge-Sensoren | Neueste Forschungsarbeiten | HyperAI