Das Lernen der Schätzung von 3D-Mensch-Pose und -Form aus einem einzelnen Farbbild

Diese Arbeit befasst sich mit dem Problem der Schätzung der vollen 3D-Körperhaltung und -form eines Menschen aus einem einzelnen Farbbild. Dies ist eine Aufgabe, bei der iterativ optimierungsorientierte Lösungen traditionell überwiegen, während Faltungsnetze (ConvNets) aufgrund des Mangels an Trainingsdaten und ihrer niedrigen Auflösung von 3D-Vorhersagen gelitten haben. Unser Ziel ist es, diese Lücke zu schließen und eine effiziente und wirksame direkte Vorhersagemethode basierend auf ConvNets vorzuschlagen. Ein zentrales Element unserer Methode ist die Integration eines parametrischen statistischen Körpermodells (SMPL) in unser end-to-end-Framework. Dies ermöglicht es uns, sehr detaillierte 3D-Gitterergebnisse zu erzielen, während nur eine kleine Anzahl von Parametern geschätzt werden muss, was die direkte Netzvorhersage erleichtert. Interessanterweise zeigen wir, dass diese Parameter ausschließlich aus 2D-Schlüsselpunkten und Masken zuverlässig vorhergesagt werden können. Diese sind typische Ausgaben generischer 2D-Mensch-Analyse-ConvNets, wodurch wir die enorme Anforderung reduzieren können, dass für das Training Bilder mit 3D-Form-Grundwahrheit verfügbar sein müssen. Gleichzeitig gewährleisten wir durch den Erhalt der Differenzierbarkeit, dass wir während des Trainings das 3D-Gitter aus den geschätzten Parametern generieren und explizit für die Oberfläche unter Verwendung eines per-Vertex-Verlusts in 3D optimieren. Schließlich wird ein differenzierbarer Renderer verwendet, um das 3D-Gitter auf das Bild zu projizieren, was eine weitere Verfeinerung des Netzes ermöglicht, indem für die Konsistenz der Projektion mit 2D-Annotierungen (d.h., 2D-Schlüsselpunkten oder Masken) optimiert wird. Der vorgeschlagene Ansatz übertrifft frühere Baseline-Methoden bei dieser Aufgabe und bietet eine attraktive Lösung für die direkte Vorhersage von 3D-Formen aus einem einzelnen Farbbild.