Pose-Manipulation mit Identitätsbewahrung

Diese Arbeit beschreibt ein neues Modell, das Bilder von Personen in neuen Pose- oder Ausdrucksvarianten – beispielsweise durch Veränderung von Gesichtsausdruck und Orientierung – aus lediglich wenigen Bildern eines menschlichen Subjekts generiert. Im Gegensatz zu früheren Ansätzen, die große Datensätze eines bestimmten Individuums für das Training erfordern, kann unser Ansatz bereits mit einer knappen Bildmenge, selbst aus nur einem einzigen Bild, beginnen. Dazu stellen wir den Character Adaptive Identity Normalization GAN (CainGAN) vor, der räumliche Charakteristika mittels eines Embedders aus den Quellbildern extrahiert und diese über mehrere Quellbilder hinweg kombiniert. Die Identitätsinformation wird durch Anwendung bedingter Normalisierung über das gesamte Netzwerk propagiert. Nach umfangreicher adversarialer Trainingsphase empfängt CainGAN Gesichtsbilder einer bestimmten Person und erzeugt neue, dabei die individuelle Identität bewahrende Bilder. Experimentelle Ergebnisse zeigen, dass die Qualität der generierten Bilder mit der Größe der Eingabemenge während der Inferenz zunimmt. Zudem belegen quantitative Messungen, dass CainGAN im Vergleich zu anderen Methoden bei begrenzten Trainingsdaten eine überlegene Leistung erzielt.