HyperAIHyperAI
vor 2 Monaten

Monokulare 3D-Pose-Schätzung von Menschen in der Wildnis unter Verwendung verbesserten CNN-Überwachungsverfahrens

Dushyant Mehta; Helge Rhodin; Dan Casas; Pascal Fua; Oleksandr Sotnychenko; Weipeng Xu; Christian Theobalt
Monokulare 3D-Pose-Schätzung von Menschen in der Wildnis unter Verwendung verbesserten CNN-Überwachungsverfahrens
Abstract

Wir schlagen einen CNN-basierten Ansatz für die 3D-Pose-Schätzung des menschlichen Körpers aus einzelnen RGB-Bildern vor, der das Problem der begrenzten Generalisierbarkeit von Modellen anspricht, die ausschließlich auf den extrem begrenzten öffentlich verfügbaren 3D-Pose-Daten trainiert wurden. Indem wir nur die vorhandenen 3D- und 2D-Pose-Daten verwenden, zeigen wir Spitzenleistungen bei etablierten Benchmarks durch den Transfer gelernter Merkmale und können gleichzeitig auf natürliche Szenen generalisieren. Wir führen zudem einen neuen Trainingsdatensatz für die Pose-Schätzung des menschlichen Körpers aus monokularen Bildern echter Menschen ein, dessen Ground Truth mit einem mehrkamerabasierten markerlosen Bewegungserfassungssystem erfasst wurde. Dieser Datensatz ergänzt bestehende Korpora durch eine größere Vielfalt an Posen, menschlichem Aussehen, Kleidung, Verdeckungen und Betrachtungswinkeln und ermöglicht einen erweiterten Umfang an Data Augmentation. Darüber hinaus leisten wir einen neuen Benchmark bei, der sowohl Outdoor- als auch Indoor-Szenen abdeckt, und zeigen, dass unser 3D-Pose-Datensatz eine bessere Performance in natürlichen Szenen bietet als bestehende annotierte Daten. Diese Leistung wird durch den Transfer Learning von 2D-Pose-Daten weiter verbessert. Insgesamt argumentieren wir dafür, dass der Einsatz von Transfer Learning von Repräsentationen in Verbindung mit algorithmischen und datenbasierten Beiträgen entscheidend ist für die allgemeine Schätzung der 3D-Körperpose.

Monokulare 3D-Pose-Schätzung von Menschen in der Wildnis unter Verwendung verbesserten CNN-Überwachungsverfahrens | Neueste Forschungsarbeiten | HyperAI