HyperAIHyperAI
vor 2 Monaten

Eine einfache, aber effektive Baseline für die 3D-Pose-Schätzung von Menschen

Julieta Martinez; Rayat Hossain; Javier Romero; James J. Little
Eine einfache, aber effektive Baseline für die 3D-Pose-Schätzung von Menschen
Abstract

Im Anschluss an den Erfolg tiefer Faltungsschichtnetze haben sich die modernsten Methoden zur 3D-Pose-Schätzung von Menschen auf tiefgreifende End-to-End-Systeme konzentriert, die 3D-Gelenkpositionen direkt aus rohen Bildpixeln vorhersagen. Trotz ihrer ausgezeichneten Leistung ist es oft schwierig zu erkennen, ob ihre verbleibenden Fehler auf eine begrenzte 2D-Pose-(visuelle) Analyse oder auf einen Fehlschlag bei der Abbildung von 2D-Posen in 3D-Räume zurückzuführen sind. Um diese Fehlerquellen zu verstehen, gingen wir daran, ein System zu entwickeln, das bei gegebenen 2D-Gelenkpositionen die 3D-Positionen vorhersagt. Zu unserer Überraschung stellten wir fest, dass mit der aktuellen Technologie das "Heben" (lifting) von realen 2D-Gelenkpositionen in den 3D-Raum eine Aufgabe ist, die mit einem bemerkenswert niedrigen Fehlerquote gelöst werden kann: Ein relativ einfaches tiefes Feedforward-Netzwerk übertrifft das beste bisher veröffentlichte Ergebnis um etwa 30 % im Human3.6M-Datensatz, dem größten öffentlich zugänglichen Benchmark für 3D-Pose-Schätzung. Darüber hinaus erzielt das Training unseres Systems auf der Ausgabe eines standardmäßigen, state-of-the-art 2D-Detektors (d.h., unter Verwendung von Bildern als Eingabe) state-of-the-art-Ergebnisse – dies schließt eine Reihe von Systemen ein, die speziell für diese Aufgabe end-to-end trainiert wurden. Unsere Ergebnisse deuten darauf hin, dass ein großer Teil der Fehler moderner tiefer 3D-Pose-Schätzungssysteme von deren visueller Analyse herrührt und legen Wege nahe, um den Stand der Technik in der Schätzung der 3D-Menschpose weiter zu verbessern.