X2Face : Un réseau pour contrôler la génération de visages à l’aide d’images, d’audio et de codes de posture

L'objectif de cet article est de présenter un modèle de réseau de neurones capable de contrôler la pose et l'expression d'un visage donné à l'aide d'un autre visage ou d'une autre modalité (par exemple, le son). Ce modèle peut ensuite être utilisé pour effectuer des éditions vidéo et image légères et sophistiquées. Nous présentons les trois contributions suivantes. Premièrement, nous introduisons un réseau nommé X2Face, capable de contrôler un visage source (spécifié par une ou plusieurs images) à l'aide d'un visage de conduite contenu dans une image de référence, afin de générer une image dont l'identité correspond à celle du visage source, mais dont la pose et l'expression reflètent celles du visage de conduite. Deuxièmement, nous proposons une méthode d'entraînement entièrement auto-supervisée du réseau, exploitant une grande collection de données vidéo. Troisièmement, nous démontrons que le processus de génération peut être piloté par d'autres modalités, telles que le son ou des codes de posture, sans nécessiter d'entraînement supplémentaire du réseau. Les résultats de génération obtenus en utilisant un visage comme signal de conduite sont comparés aux méthodes de pointe auto-supervisées ou supervisées. Nous montrons que notre approche est plus robuste que les autres méthodes, car elle repose sur moins d'hypothèses concernant les données d'entrée. Nous présentons également des exemples d'utilisation de notre cadre pour l'édition de visages dans des vidéos.