HyperAIHyperAI
vor 2 Monaten

Lernfähige Triangulierung der menschlichen Haltung

Karim Iskakov; Egor Burkov; Victor Lempitsky; Yury Malkov
Lernfähige Triangulierung der menschlichen Haltung
Abstract

Wir präsentieren zwei innovative Lösungen für die mehrsichtige 3D-Pose-Schätzung von Menschen, basierend auf neuen lernfähigen Triangulationsmethoden, die 3D-Informationen aus mehreren 2D-Bildern kombinieren. Die erste (Baseline-)Lösung ist eine grundlegende differenzierbare algebraische Triangulation, die durch das Hinzufügen von Vertrauensgewichten, die aus den Eingabebildern geschätzt werden, erweitert wird. Die zweite Lösung basiert auf einer neuen Methode der volumnetrischen Aggregation aus intermediären 2D-Feature Maps des Backbone-Netzes. Das aggregierte Volumen wird dann durch 3D-Faltungen verfeinert, die finale 3D-Gelenkwärmebilder erzeugen und das Modellieren eines menschlichen Pose-Priors ermöglichen. Entscheidend ist, dass beide Ansätze end-to-end differenzierbar sind, was uns ermöglicht, das Zielmaß direkt zu optimieren. Wir zeigen die Übertragbarkeit der Lösungen auf verschiedene Datensätze und verbessern den Stand der Technik bei mehrsichtiger Pose-Schätzung erheblich am Beispiel des Human3.6M-Datensatzes. Eine Video-Demonstration, Annotationen und zusätzliche Materialien werden auf unserer Projektseite veröffentlicht (https://saic-violet.github.io/learnable-triangulation).