Untersuchung des StyleGAN-Latentraums für die Gesichtsausrichtung mit begrenzten Trainingsdaten

Mit der zunehmenden Größe von Deep-Learning-Modellen in den vergangenen Jahren – manche überschreiten heute bereits eine Milliarde Parameter – wächst auch der Bedarf an großen, annotierten Trainingsdatensätzen. Um dieses Problem zu lindern, nimmt das Interesse an selbstüberwachtem Lernen kontinuierlich zu. In diesem Bereich hat sich insbesondere die Qualität der Bildgenerierung durch den Aufstieg von Generativen adversarialen Netzwerken (GANs), und insbesondere von StyleGAN, erheblich verbessert. In diesem Artikel schlagen wir vor, StyleGAN zur Gesichtsalignierung bei begrenzten Trainingsdaten anstelle der Bildgenerierung einzusetzen. Unser vorgeschlagenes Framework, Face Alignment using StyleGAN Embeddings (FASE), projiziert reale Bilder in den latenten Raum von StyleGAN und leitet anschließend Gesichtsmerkmale aus den latenten Vektoren ab. Unsere Methode erreicht state-of-the-art Ergebnisse auf mehreren Gesichtsalignierungs-Datensätzen im Few-Shot-Szenario.