HyperAIHyperAI
vor 2 Monaten

3D-Mehrpersonen-Pose-Schätzung aus monokularen Videos mit dualen Netzen

Cheng, Yu ; Wang, Bo ; Tan, Robby T.
3D-Mehrpersonen-Pose-Schätzung aus monokularen Videos mit dualen Netzen
Abstract

Die monokulare 3D-Pose-Schätzung von Menschen hat in den letzten Jahren Fortschritte gemacht. Die meisten Methoden konzentrieren sich auf einzelne Personen und schätzen die Posen in personenzentrierten Koordinaten, d.h., den Koordinaten, die auf dem Zentrum der Zielperson basieren. Daher sind diese Methoden für die 3D-Pose-Schätzung mehrerer Personen nicht anwendbar, bei der absolute Koordinaten (z.B. Kamerakoordinaten) erforderlich sind. Darüber hinaus ist die Pose-Schätzung mehrerer Personen schwieriger als die Schätzung einer einzigen Person, da es zu Interferenzen zwischen Personen und engen menschlichen Interaktionen kommen kann. Bestehende top-down-Methoden zur Mehrpersonen-Pose-Schätzung basieren auf der Erkennung von Menschen (d.h., top-down-Ansatz) und leiden daher unter Erkennungsfehlern, sodass sie in Szenen mit mehreren Personen keine verlässliche Pose-Schätzung erzeugen können. Gleichzeitig sind bestehende bottom-up-Methoden, die keine Menschen-Erkennung verwenden, nicht von Erkennungsfehlern betroffen; da sie jedoch alle Personen in einer Szene gleichzeitig verarbeiten, sind sie anfällig für Fehler, insbesondere bei Personen in kleinem Maßstab. Um all diese Herausforderungen zu bewältigen, schlagen wir eine Integration von top-down- und bottom-up-Ansätzen vor, um ihre Stärken zu nutzen. Unser top-down-Netzwerk schätzt Gelenke aller Personen in einem Bildausschnitt und nicht nur einer Person, was es gegenüber möglichen fehlerhaften Begrenzungsboxen robuster macht. Unser bottom-up-Netzwerk integriert normalisierte Heatmaps basierend auf der Menschen-Erkennung, wodurch das Netzwerk bei der Verarbeitung von Skalenvariationen robuster wird. Schließlich werden die geschätzten 3D-Posen aus den top-down- und bottom-up-Netzwerken in unser Integrationsnetzwerk eingespeist, um die endgültigen 3D-Posen zu erzeugen. Um die üblichen Lücken zwischen Trainings- und Testdatensätzen zu überbrücken, führen wir während des Testens eine Optimierung durch, indem wir die geschätzten 3D-Menschen-Posen unter Verwendung hochwertiger zeitlicher Restriktionen, Reprojektionsverluste und Knochenlängeregularisierungen verfeinern. Unsere Evaluierungen zeigen die Effektivität der vorgeschlagenen Methode. Der Quellcode und die Modelle sind verfügbar: https://github.com/3dpose/3D-Multi-Person-Pose.注释:1. "Monocular" 翻译为 "monokular", 指单目摄像头。2. "Top-down" 和 "Bottom-up" 方法在德语中通常保留英文原词,因为这些术语在科技文献中广泛使用。3. "Heatmaps" 翻译为 "Heatmaps", 因为这也是一个常用的科技术语。4. "Reprojection loss" 翻译为 "Reprojektionsverlust", 这是一个常见的计算机视觉术语。5. "Bone length regularizations" 翻译为 "Knochenlängeregularisierungen", 以保持专业性。

3D-Mehrpersonen-Pose-Schätzung aus monokularen Videos mit dualen Netzen | Neueste Forschungsarbeiten | HyperAI