Faltungsnetzregression für die Rekonstruktion der menschlichen Gestalt aus einem einzelnen Bild

Dieses Papier behandelt das Problem der 3D-Pose- und Formschätzung des menschlichen Körpers aus einem einzelnen Bild. Frühere Ansätze verwenden ein parametrisches Modell des menschlichen Körpers, das SMPL-Modell, und versuchen, die Modelparameter zu regressieren, die zu einer im Bild konsistenten Masche führen. Die Regression dieser Parameter war eine sehr herausfordernde Aufgabe, wobei modellbasierte Ansätze bei der Pose-Schätzung unter den nicht-parametrischen Lösungen zurückstanden. In unserer Arbeit schlagen wir vor, diese starke Abhängigkeit vom Parameterraum des Modells zu lockern. Wir behalten zwar die Topologie des SMPL-Vorlagengitters bei, aber anstelle der Vorhersage von Modelparametern regressieren wir direkt die 3D-Lage der Gitterpunkte. Dies ist für ein typisches Netzwerk eine anspruchsvolle Aufgabe, unser wesentlicher Einblick jedoch ist, dass die Regression mit einem Graph-CNN erheblich einfacher wird. Diese Architektur ermöglicht es uns, die Struktur des Vorlagengitters explizit im Netzwerk zu kodieren und von der räumlichen Lokalität des Gitters zu profitieren. Bildbasierte Merkmale werden den Gitterpunkten zugeordnet und das Graph-CNN verarbeitet sie auf der Gitterstruktur; das Regressionsziel für jeden Punkt ist seine 3D-Lage. Nachdem wir die vollständige 3D-Geometrie des Gitters rekonstruiert haben, können wir bei Bedarf eine spezifische Modellparametrisierung zuverlässig aus den Lagekoordinaten der Punkte ableiten. Wir demonstrieren die Flexibilität und Effektivität unseres vorgeschlagenen graphbasierten Gitterregressionssystems durch das Anbinden verschiedener Arten von Merkmalen an die Gitterpunkte. In allen Fällen übertreffen wir vergleichbare Baseline-Methoden, die auf der Regression von Modelparametern basieren, und erreichen gleichzeitig Spitzenwerte unter den modellbasierten Ansätzen zur Pose-Schätzung.