HyperAIHyperAI
vor 2 Monaten

Effiziente Schätzung der menschlichen Pose mittels 3D Ereignispunktwolke

Jiaan Chen; Hao Shi; Yaozu Ye; Kailun Yang; Lei Sun; Kaiwei Wang
Effiziente Schätzung der menschlichen Pose mittels 3D Ereignispunktwolke
Abstract

Die Schätzung der menschlichen Körperhaltung (Human Pose Estimation, HPE) basierend auf RGB-Bildern hat dank des tiefen Lernens einen raschen Fortschritt erlebt. Allerdings wurde die ereignisbasierte HPE noch nicht ausreichend untersucht und bietet weiterhin großes Potenzial für Anwendungen in extremen Szenarien und unter effizienzkritischen Bedingungen. In dieser Arbeit sind wir die Ersten, die eine 2D-menschliche Körperhaltung direkt aus einer 3D-Ereignispunktewolke schätzen. Wir schlagen eine neue Darstellung von Ereignissen vor, die rasterisierte Ereignispunktewolke, bei der Ereignisse in derselben Position innerhalb eines kurzen Zeitintervalls zusammengefasst werden. Diese Darstellung behält 3D-Features aus mehreren statistischen Hinweisen bei und reduziert den Speicherverbrauch und die Rechenkomplexität erheblich, was in unserer Arbeit bewiesen wurde. Anschließend nutzen wir die rasterisierte Ereignispunktewolke als Eingabe für drei verschiedene Backbones: PointNet, DGCNN und Point Transformer, wobei zwei lineare Decodierschichten zur Vorhersage der Lage von menschlichen Key Points verwendet werden. Wir stellen fest, dass unser Verfahren mit PointNet vielversprechende Ergebnisse mit deutlich höherer Geschwindigkeit erzielt, während Point Transformer eine viel höhere Genauigkeit erreicht, sogar nahe an frühere ereignisbildbasierte Methoden heranreicht. Eine umfassende Reihe von Ergebnissen zeigt, dass unser vorgeschlagenes Verfahren für diese 3D-Backbone-Modelle in ereignisgetriebener Schätzung der menschlichen Körperhaltung stets effektiv ist. Unser Verfahren basierend auf PointNet mit einer Eingabe von 2048 Punkten erreicht auf dem DHP19-Datensatz ein MPJPE3D von 82,46 mm, während es auf einer NVIDIA Jetson Xavier NX Edge Computing Plattform nur eine Latenz von 12,29 ms hat. Dies macht es ideal für die Echtzeitdetektion mit Ereigniskameras geeignet. Der Quellcode ist unter https://github.com/MasterHow/EventPointPose verfügbar.