Keep it SMPL: Automatische Schätzung von 3D-Mensch-Pose und -Form aus einem einzelnen Bild

Wir beschreiben die erste Methode zur automatischen Schätzung der 3D-Pose sowie der 3D-Form des menschlichen Körpers aus einem einzelnen unbeschränkten Bild. Wir schätzen ein vollständiges 3D-Gitter und zeigen, dass allein die 2D-Gelenke überraschend viel Information über die Körperform tragen. Das Problem ist herausfordernd aufgrund der Komplexität des menschlichen Körpers, der Artikulation, Verdeckung, Bekleidung, Beleuchtung und der inhärenten Ambiguität bei der Inferenz von 3D aus 2D. Um dies zu lösen, verwenden wir zunächst eine kürzlich veröffentlichte CNN-basierte Methode, DeepCut, um (von unten nach oben) die 2D-Lage der Körperteile vorherzusagen. Anschließend passen wir (von oben nach unten) ein kürzlich veröffentlichtes statistisches Modell der Körperform, das SMPL genannt wird, an die 2D-Gelenke an. Dies tun wir durch Minimierung einer Zielfunktion, die den Fehler zwischen den projizierten 3D-Modellgelenken und den erkannten 2D-Gelenken bestraft. Da SMPL Korrelationen in der menschlichen Form über die Bevölkerung erfassen kann, sind wir in der Lage, es robust an sehr wenig Daten anzupassen. Wir nutzen zudem das 3D-Modell, um Lösungen zu verhindern, die zu Durchdringungen führen. Wir evaluieren unsere Methode, SMPLify, anhand der Datensätze Leeds Sports, HumanEva und Human3.6M und zeigen eine überlegene Posegenauigkeit im Vergleich zum Stand der Technik.