Neural Descent für visuelle 3D-Körperhaltung und -Form

Wir präsentieren eine Methode basierend auf tiefen neuronalen Netzen zur Rekonstruktion der 3D-Pose und -Form menschlicher Körper anhand eines Eingabebildes in RGB. Dabei stützen wir uns auf ein kürzlich vorgestelltes, ausdrucksstarkes statistisches 3D-Menschmodell namens GHUM, das end-to-end trainiert wurde, und lernen, dessen Pose- und Formzustand in einem selbstüberwachten Lernansatz zu rekonstruieren. Zentraler Bestandteil unserer Methode ist ein „Learning to Learn and Optimize“-Ansatz, der als HUmanNeural Descent (HUND) bezeichnet wird. Dieser vermeidet sowohl die Berechnung zweiter Ableitungen während des Modelltrainings als auch aufwändige Gradientenabstiegsverfahren zur exakten Minimierung einer semantisch differenzierbaren Rendering-Fehlerfunktion im Testzeitpunkt. Stattdessen nutzen wir neuartige rekurrente Schritte, um die Pose- und Formparameter zu aktualisieren, sodass nicht nur die Verlustfunktion effizient minimiert wird, sondern der Optimierungsprozess zudem meta-reguliert ist, um eine stabile und kontinuierliche Verbesserung zu gewährleisten. Die Symmetrie zwischen Trainings- und Testphase macht HUND zur ersten Architektur für die 3D-Menschenwahrnehmung, die native Unterstützung für unterschiedliche Betriebsmodi, einschließlich selbstüberwachter Szenarien, bietet. In umfassenden Tests zeigen wir, dass HUND sehr competitive Ergebnisse auf Datensätzen wie H3.6M und 3DPW erzielt sowie qualitativ hochwertige 3D-Rekonstruktionen für komplexe, in-the-wild aufgenommene Bilder liefert.