Anpassung eines menschlichen Körpermodells mittels gelerntem Gradientenabstieg

Wir schlagen einen neuen Algorithmus zur Anpassung dreidimensionaler menschlicher Körperformen an Bilder vor. Indem wir die Genauigkeit und Feinabstimmungsfähigkeit iterativer, auf Gradienten basierender Optimierungstechniken mit der Robustheit tiefer neuronaler Netze verbinden, entwickeln wir einen Gradientenabstieg-Algorithmus, der ein neuronales Netzwerk nutzt, um in jeder Iteration die Parameteraktualisierungsregel vorherzusagen. Diese pro-Parameter- und Zustandsbewusste Aktualisierung führt den Optimierer bereits in wenigen Schritten zu einer guten Lösung und führt typischerweise innerhalb sehr kurzer Zeit zur Konvergenz. Während des Trainings benötigt unser Ansatz ausschließlich Bewegungsaufzeichnungsdaten (MoCap) menschlicher Körperhaltungen, die über SMPL parametrisiert sind. Aus diesen Daten lernt das Netzwerk einen Unterraum gültiger Haltungen und Formen, in dem die Optimierung deutlich effizienter durchgeführt werden kann. Der Ansatz erfordert keine schwer zu beschaffenden Bild-zu-3D-Zuordnungen. Im Testbetrieb optimieren wir ausschließlich den 2D-Gelenk-Reprojektionsfehler, ohne zusätzliche Prior-Informationen oder Regularisierungsterme benötigen zu müssen. Wir zeigen empirisch, dass dieser Algorithmus schnell ist (durchschnittliche Konvergenzzeit: 120 ms), robust gegenüber der Initialisierung und Datensätzen ist und state-of-the-art-Ergebnisse auf öffentlichen Evaluationsdatensätzen erzielt – darunter die anspruchsvolle 3DPW-in-the-wild-Benchmark (Verbesserung gegenüber SMPLify um 45 %) – sowie Ansätze, die auf Bild-zu-3D-Zuordnungen basieren.