Manipulation de pose avec préservation de l'identité

Cet article présente un nouveau modèle capable de générer des images de personnes dans des poses nouvelles — par exemple en modifiant l'expression faciale ou l'orientation — à partir de très peu d'exemples d'un même sujet humain. Contrairement aux approches antérieures qui nécessitent de grandes bases de données d'une personne spécifique pour l'entraînement, notre méthode peut fonctionner à partir d'un ensemble restreint d'images, voire d'une seule image. À cette fin, nous introduisons le modèle CainGAN (Character Adaptive Identity Normalization GAN), qui exploite des caractéristiques spatiales extraites par un embedder et combinées à partir d'images sources. L'information d'identité est propagée à travers le réseau grâce à une normalisation conditionnelle. Après une phase d'entraînement adversarial approfondie, CainGAN reçoit des visages appartenant à une personne donnée et en génère de nouveaux tout en préservant fidèlement l'identité du sujet. Les résultats expérimentaux montrent que la qualité des images générées augmente avec la taille de l'ensemble d'entrée utilisé lors de l'inférence. En outre, les mesures quantitatives indiquent que CainGAN surpasser les autres méthodes dans des conditions où les données d'entraînement sont limitées.