Selbstüberwachte 3D-Gesichtsrekonstruktion über bedingte Schätzung

Wir stellen einen bedingten Schätzungskontext (Conditional Estimation, CEST) vor, um 3D-Gesichtsparameter aus 2D-Einbildaufnahmen durch selbstüberwachtes Lernen aus Videos zu erlernen. CEST basiert auf dem Prinzip der Analyse durch Synthese, bei dem die 3D-Gesichtsparameter (Form, Reflektanz, Blickwinkel und Beleuchtung) aus dem Gesichtsbild geschätzt werden und anschließend zur Rekonstruktion des 2D-Gesichtsbildes wieder zusammengeführt werden. Um semantisch sinnvolle 3D-Gesichtsparameter zu erlernen, ohne expliziten Zugriff auf deren Labels, berücksichtigt CEST die statistischen Abhängigkeiten zwischen den verschiedenen 3D-Gesichtsparametern und koppelt deren Schätzung entsprechend. Insbesondere hängt die Schätzung jedes 3D-Gesichtsparameters nicht nur vom gegebenen Bild ab, sondern auch von bereits abgeleiteten Gesichtsparametern. Zudem werden die Reflektanz-Symmetrie und die Konsistenz über die Videoframes genutzt, um die Entkoppelung der Gesichtsparameter zu verbessern. In Verbindung mit einer neuartigen Strategie zur Einbeziehung der Reflektanz-Symmetrie und -Konsistenz kann CEST effizient mit realen, unkontrollierten Videoclips trainiert werden. Sowohl qualitative als auch quantitative Experimente belegen die Wirksamkeit von CEST.