Unüberwachtes Training für die Regression von 3D-Formmodellen

Wir präsentieren eine Methode zur Schulung eines Regressionsnetzwerks von Bildpixeln zu 3D-morphologischen Modellkoordinaten unter Verwendung ausschließlich unmarkierter Fotografien. Der Trainingsverlust basiert auf Merkmalen aus einem Gesichtserkennungsnetzwerk, die durch Rendern der vorhergesagten Gesichter mit einem differenzierbaren Renderer in Echtzeit berechnet werden. Um das Training anhand von Merkmalen machbar zu gestalten und Netzwerktricks zu vermeiden, führen wir drei Ziele ein: einen Batch-Verteilungsverlust, der die Ausgabeverteilung dazu anregt, der Verteilung des morphologischen Modells zu entsprechen; einen Rückkopplungsverlust (loopback loss), der sicherstellt, dass das Netzwerk seine eigene Ausgabe korrekt neu interpretieren kann; und einen Mehrsichtwinkel-Identitätsverlust (multi-view identity loss), der die Merkmale des vorhergesagten 3D-Gesichts und des Eingangsfotografie aus mehreren Betrachtungswinkeln vergleicht. Wir schulen ein Regressionsnetzwerk unter Verwendung dieser Ziele, einer Reihe unmarkierter Fotografien und des morphologischen Modells selbst und demonstrieren dabei Stand-der-Kunst-Ergebnisse.