HyperAIHyperAI
vor 2 Monaten

Zu robust und glatter 3D-Mehrpersonen-Pose-Schätzung aus monokularen Videos in der Wildbahn

Park, Sungchan ; You, Eunyi ; Lee, Inhoe ; Lee, Joonseok
Zu robust und glatter 3D-Mehrpersonen-Pose-Schätzung aus monokularen Videos in der Wildbahn
Abstract

Die Schätzung von 3D-Posen ist eine unschätzbar wertvolle Aufgabe im Bereich der Computer Vision mit verschiedenen praktischen Anwendungen. Insbesondere die Schätzung von 3D-Posen für mehrere Personen aus einem monokularen Video (3DMPPE) ist besonders herausfordernd und weitgehend unerforscht, noch lange nicht bereit für Anwendungen in realen Szenarien. Wir identifizieren drei bisher ungelöste Probleme bei den existierenden Methoden: Mangel an Robustheit gegenüber unbekannten Ansichten während des Trainings, Anfälligkeit für Verdeckungen und starke Ruckeleffekte in der Ausgabe. Als Lösung schlagen wir POTR-3D vor, die erste Realisierung eines sequenzbasierten 2D-zu-3D-Lifting-Modells für 3DMPPE, das durch eine neuartige geometriebezogene Datenverstärkungsstrategie angetrieben wird. Diese Strategie ist in der Lage, unbegrenzte Daten mit einer Vielzahl von Ansichten zu generieren, wobei sie gleichzeitig den Bodenplan und Verdeckungen berücksichtigt. Durch umfangreiche Experimente verifizieren wir, dass das vorgeschlagene Modell und die Datenverstärkung robust auf verschiedene unbekannte Ansichten generalisieren, die Posen auch bei schweren Verdeckungen zuverlässig rekonstruieren und natürlichere sowie flüssigere Ausgaben erzeugen. Die Effektivität unseres Ansatzes wird nicht nur durch die Erreichung des Standes der Technik auf öffentlichen Benchmarks bestätigt, sondern auch durch qualitative Ergebnisse auf anspruchsvolleren Videos aus dem Wild. Demonstrationsvideos sind unter https://www.youtube.com/@potr3d verfügbar.

Zu robust und glatter 3D-Mehrpersonen-Pose-Schätzung aus monokularen Videos in der Wildbahn | Neueste Forschungsarbeiten | HyperAI