Lernen, Körper aus Bildern mittels differenzierbaren semantischen Renderings zu regressieren

Das Lernen der Regression von 3D-Körperform und -haltung (z.B. SMPL-Parametern) aus monokularen Bildern nutzt in der Regel Verlustfunktionen für 2D-Landmarken, Silhouetten und/oder Körperteilsegmentierung, wenn keine 3D-Trainingsdaten verfügbar sind. Solche Verlustfunktionen sind jedoch begrenzt, da 2D-Landmarken die Körperform nicht überwachen und Segmentierungen von bekleideten Personen nicht mit den projizierten minimal bekleideten SMPL-Körpern übereinstimmen. Um reichere Bildinformationen über bekleidete Personen zu nutzen, führen wir hochwertige semantische Informationen über Kleidung ein, um bekleidete und unbekleidete Bereiche des Bildes unterschiedlich zu bewerten. Dazu trainieren wir einen Körperregressor mit einer neuartigen differenzierbaren semantischen Rendering-Verlustfunktion – dem DSR-Verlust. Für minimale bekleidete Bereiche definieren wir den DSR-MC-Verlust, der eine enge Übereinstimmung zwischen einem gerenderten SMPL-Körper und den minimal bekleideten Bereichen des Bildes fördert. Für bekleidete Bereiche definieren wir den DSR-C-Verlust, um das gerenderte SMPL-Modell innerhalb der Kleidermaske zu positionieren. Um eine end-to-end-differenzierbare Trainierung sicherzustellen, lernen wir ein semantisches Kleiderprior für SMPL-Knotenpunkte aus Tausenden von Scans von bekleideten Menschen. Wir führen umfangreiche qualitative und quantitative Experimente durch, um die Rolle der Kleidersemantik bei der Genauigkeit der 3D-Haltungsschätzung und -Formschätzung zu evaluieren. Unsere Methode übertrifft alle bisherigen Stand-of-the-Art-Methoden auf 3DPW und Human3.6M und erzielt vergleichbare Ergebnisse auf MPI-INF-3DHP. Der Code und die trainierten Modelle sind für Forschungszwecke unter https://dsr.is.tue.mpg.de/ verfügbar.