X2Face: Ein Netzwerk zur Steuerung der Gesichtsgenerierung mithilfe von Bildern, Audio- und Pose-Codes

Das Ziel dieses Papers ist die Entwicklung eines neuronalen Netzwerks, das die Pose und Expression eines gegebenen Gesichts mithilfe eines anderen Gesichts oder einer anderen Modalität (z. B. Audio) steuert. Dieses Modell kann anschließend für leichte, dennoch hochentwickelte Bild- und Videobearbeitung eingesetzt werden. Wir leisten folgende drei Beiträge: Erstens stellen wir ein Netzwerk, X2Face, vor, das ein Quellgesicht (durch ein oder mehrere Frames spezifiziert) mithilfe eines Treiber-Gesichts in einem Treiber-Frame steuert, um einen generierten Frame zu erzeugen, der die Identität des Quellgesichts beibehält, jedoch die Pose und Expression des Gesichts im Treiber-Frame aufweist. Zweitens schlagen wir eine Methode zur vollständig selbstüberwachten Schulung des Netzwerks unter Verwendung einer großen Sammlung von Videodaten vor. Drittens zeigen wir, dass der Generierungsprozess auch durch andere Modalitäten wie Audio oder Pose-Codes gesteuert werden kann, ohne dass eine zusätzliche Schulung des Netzwerks erforderlich ist. Die Generierungsergebnisse bei der Steuerung eines Gesichts durch ein anderes Gesicht werden mit aktuellen selbstüberwachten und überwachten Methoden verglichen. Wir zeigen, dass unser Ansatz robuster ist als andere Verfahren, da er weniger Annahmen über die Eingabedaten macht. Zudem präsentieren wir Beispiele für die Anwendung unseres Frameworks zur Videogesichtsbearbeitung.