HyperAIHyperAI
vor 4 Monaten

TriPose: Eine schwach überwachte 3D-Pose-Schätzung von Menschen durch Triangulation aus Videos

Mohsen Gholami; Ahmad Rezaei; Helge Rhodin; Rabab Ward; Z. Jane Wang
TriPose: Eine schwach überwachte 3D-Pose-Schätzung von Menschen durch Triangulation aus Videos
Abstract

Die Schätzung von 3D-Menschenpose aus Videos ist ein anspruchsvolles Problem. Ein Haupthindernis für die überwachte Trainierung und die Generalisierung auf unbekannte Datensätze ist das Fehlen von 3D-Pose-Annotierungen. In dieser Arbeit adressieren wir dieses Problem durch einen vorgeschlagenen schwach überwachten Trainierungsansatz, der weder 3D-Annotierungen noch kalibrierte Kameras erfordert. Die vorgeschlagene Methode basiert auf zeitlicher Information und Triangulation. Unter Verwendung von 2D-Posen aus mehreren Ansichten als Eingabe schätzen wir zunächst die relativen Kamerapositionen und generieren dann 3D-Posen durch Triangulation. Die Triangulation wird nur auf Ansichten mit hoher 2D-Gelenk-Konfidenz angewendet. Die generierten 3D-Posen werden anschließend verwendet, um ein rekurrentes Hebungss Netzwerk (RLN) zu trainieren, das 3D-Posen aus 2D-Posen schätzt. Wir wenden außerdem einen Mehransichts-Rückprojektionsverlust auf die geschätzten 3D-Posen an und erzwingen die Konsistenz der aus mehreren Ansichten geschätzten 3D-Posen. Dadurch lockern unsere Methodik die praktischen Einschränkungen, da lediglich Mehransichtsvideos für die Trainierung erforderlich sind, was sie für Anwendungen in freien Umgebungen besonders geeignet macht. Bei der Inferenz benötigt das RLN lediglich Einzelansichtsvideos. Das vorgeschlagene Verfahren übertrifft frühere Arbeiten bei zwei anspruchsvollen Datensätzen, nämlich Human3.6M und MPI-INF-3DHP. Der Quellcode und vorab trainierte Modelle werden öffentlich zur Verfügung gestellt.

TriPose: Eine schwach überwachte 3D-Pose-Schätzung von Menschen durch Triangulation aus Videos | Forschungsarbeiten | HyperAI