HyperAIHyperAI
vor 16 Tagen

Cross-View Tracking für die Multi-Human 3D Pose Estimation mit über 100 FPS

Long Chen, Haizhou Ai, Rui Chen, Zijie Zhuang, Shuang Liu
Cross-View Tracking für die Multi-Human 3D Pose Estimation mit über 100 FPS
Abstract

Die Schätzung von 3D-Posen mehrerer Menschen in Echtzeit ist eine klassische, jedoch weiterhin herausfordernde Aufgabe im Bereich der Computer Vision. Der Hauptgrund hierfür liegt in der Mehrdeutigkeit der Zuordnung von 2D-Posen zwischen verschiedenen Ansichten sowie im riesigen Zustandsraum, wenn mehrere Personen in mehreren Ansichten gleichzeitig erfasst werden müssen. In diesem Paper präsentieren wir eine neuartige Lösung für die 3D-Pose-Schätzung mehrerer Menschen aus mehreren kalibrierten Kamerasicht. Unser Ansatz nimmt 2D-Posen in den jeweiligen Kamerakoordinaten als Eingabe und zielt darauf ab, präzise 3D-Posen im globalen Koordinatensystem zu ermitteln. Im Gegensatz zu früheren Methoden, die die Zuordnung von 2D-Posen zwischen allen Paaren von Ansichten in jedem Frame von Grund auf neu durchführen, nutzen wir die zeitliche Konsistenz in Videos, um die 2D-Eingaben direkt in der 3D-Raumdarstellung mit 3D-Posen zu verknüpfen. Konkret schlagen wir vor, die 3D-Pose jeder Person beizubehalten und diese iterativ über eine mehrfach ansichtsübergreifende Mehrpersonenverfolgung zu aktualisieren. Diese neuartige Formulierung verbessert sowohl Genauigkeit als auch Effizienz, wie wir anhand weit verbreiteter öffentlicher Datensätze nachweisen konnten. Um die Skalierbarkeit unserer Methode weiter zu überprüfen, stellen wir ein neues großflächiges Datensatz für Mehrpersonen-3D-Pose-Schätzung vor, der zwischen 12 und 28 Kameraansichten umfasst. Ohne zusätzliche technische Spielereien erreicht unsere Lösung eine Geschwindigkeit von 154 FPS bei 12 Kameras und 34 FPS bei 28 Kameras, was ihre Fähigkeit unterstreicht, große, realweltbasierte Anwendungen zu bewältigen. Der vorgestellte Datensatz ist unter https://github.com/longcw/crossview_3d_pose_tracking verfügbar.

Cross-View Tracking für die Multi-Human 3D Pose Estimation mit über 100 FPS | Neueste Forschungsarbeiten | HyperAI