End-to-End-Rekonstruktion der menschlichen Form und Haltung

Wir beschreiben Human Mesh Recovery (HMR), ein End-to-End-Framework zur Rekonstruktion eines vollständigen 3D-Gitters eines menschlichen Körpers aus einem einzelnen RGB-Bild. Im Gegensatz zu den meisten aktuellen Methoden, die 2D- oder 3D-Gelenkpositionen berechnen, erzeugen wir eine reichhaltigere und nützlichere Gitterdarstellung, die durch Form und 3D-Gelenkwinkel parametrisiert ist. Das Hauptziel besteht darin, den Reprojektionsverlust von Schlüsselpunkten zu minimieren, was es unserem Modell ermöglicht, mit Bildern im Wild trainiert zu werden, die nur über wahre 2D-Annotierungen verfügen. Der alleinige Reprojektionsverlust führt jedoch zu einem stark unterbestimmten Modell. In dieser Arbeit lösen wir dieses Problem, indem wir einen Widersacher (Adversary) einführen, der auf der Grundlage einer großen Datenbank von 3D-Menschengittern trainiert wird, um festzustellen, ob ein menschlicher Körperparameter real ist oder nicht. Wir zeigen, dass HMR sowohl mit als auch ohne Paarung von 2D-zu-3D-Überwachung trainiert werden kann. Wir stützen uns nicht auf Zwischenergebnisse von 2D-Schlüsselpunkterkennungen und leiten direkt aus den Bilddaten die Parameter für die 3D-Haltung und -Form ab. Unser Modell läuft in Echtzeit vorausgesetzt, es erhält eine Begrenzungsbox, die die Person enthält. Wir demonstrieren unseren Ansatz an verschiedenen Bildern im Wild und übertreffen dabei vorherige optimierungsbasierte Methoden, die 3D-Gitter erzeugen. Zudem zeigen wir wettbewerbsfähige Ergebnisse bei Aufgaben wie der Schätzung von 3D-Gelenkpositionen und der Segmentierung von Körperteilen.