Swapping de visage en une seule prise sur des images haute résolution

Le swap de visage présente à la fois des applications positives, telles que le divertissement et l'interaction homme-machine, ainsi que des applications négatives, comme les menaces liées aux DeepFakes en politique et en économie. Néanmoins, il est nécessaire de comprendre les principes des méthodes avancées pour un swap de visage de haute qualité et de générer suffisamment d'images représentatives pour entraîner des algorithmes de détection de DeepFakes. Cet article propose la première méthode au niveau mégapixel pour le swap de visage en une seule prise (ou MegaFS pour faire court). Premièrement, MegaFS organise la représentation faciale hiérarchiquement grâce au codeur facial à représentation hiérarchique proposé (HieRFE) dans un espace latent étendu afin de préserver plus de détails faciaux, plutôt qu'une représentation compressée utilisée dans les méthodes précédentes de swap de visage. Deuxièmement, un module de transfert facial (FTM) soigneusement conçu est proposé pour transférer l'identité d'une image source à l'image cible par une trajectoire non linéaire sans désentrelacement explicite des caractéristiques. Enfin, les visages swappés peuvent être synthétisés par StyleGAN2, profitant ainsi de sa stabilité d'entraînement et de ses capacités génératives puissantes. Chaque partie du MegaFS peut être entraînée séparément, ce qui permet à notre modèle de satisfaire les exigences en mémoire GPU nécessaires pour le swap de visage au niveau mégapixel. En résumé, la représentation complète du visage, l'entraînement stable et l'utilisation limitée de la mémoire sont les trois contributions novatrices qui ont permis le succès de notre méthode. Des expériences approfondies démontrent la supériorité du MegaFS et la première base de données au niveau mégapixel pour le swap de visage est rendue disponible au domaine public pour la recherche sur la détection des DeepFakes et l'édition d'images faciales. Le jeu de données est accessible via ce lien.