Nichtlineares 3D Gesichtsverformungsmodell

Als klassisches statistisches Modell der 3D-Gesichtsform und -textur wird das 3D Morphable Model (3DMM) weit verbreitet in der Gesichtsanalyse verwendet, z.B. für Modellanpassung und Bildsynthese. Das traditionelle 3DMM wird aus einer Reihe gut kontrollierter 2D-Gesichtsbilder mit zugehörigen 3D-Gesichtsscans gelernt und durch zwei Mengen von PCA-Basisfunktionen dargestellt. Aufgrund des Typs und der Menge der Trainingsdaten sowie der linearen Basen kann die Darstellungskraft des 3DMM begrenzt sein. Um diese Probleme zu lösen, schlägt dieser Artikel ein innovatives Framework vor, um ein nichtlineares 3DMM-Modell aus einer großen Anzahl unbeschränkter Gesichtsbilder zu lernen, ohne 3D-Gesichtsscans zu sammeln. Speziell geschätzt werden bei Eingabe eines Gesichtsbildes die Projektions-, Form- und Texturparameter durch ein Netzwerkencoder. Zwei Decoder dienen als nichtlineares 3DMM, um jeweils von den Form- und Texturparametern auf die 3D-Form und -Textur abzubilden. Mit dem Projektionsparameter, der 3D-Form und der Textur wurde eine neuartige analytisch differenzierbare Rendering-Schicht entwickelt, um das originale Eingabegesicht wiederherzustellen. Das gesamte Netzwerk ist nur mit schwacher Überwachung end-to-end trainierbar. Wir zeigen die überlegene Darstellungskraft unseres nichtlinearen 3DMM im Vergleich zu dessen linearem Pendant und dessen Beitrag zur Gesichtsausrichtung und 3D-Rekonstruktion.