Poly-GAN : GAN à conditions multiples pour la synthèse de mode

Nous présentons Poly-GAN, une nouvelle architecture de GAN conditionnellement inspirée par la synthèse de mode, une application où des vêtements sont automatiquement positionnés sur des images de mannequins humains à une posture arbitraire. Poly-GAN permet une conditionnement sur plusieurs entrées et s'applique à de nombreuses tâches, notamment l'alignement d'images, le collage d'images et le remplissage d'images (inpainting). Les méthodes existantes suivent une pipeline similaire, composée de trois réseaux distincts : un premier réseau aligne d'abord le vêtement selon la posture humaine, un deuxième réalise le collage du vêtement aligné, puis un troisième affine les résultats. Poly-GAN constitue la première instance où une architecture commune est utilisée pour effectuer les trois tâches. Notre architecture novatrice impose les conditions à tous les niveaux du encodeur et exploite des connexions directes (skip connections) provenant des couches grossières de l'encodeur vers les couches correspondantes du décodeur. Poly-GAN est capable d'effectuer une transformation spatiale du vêtement en se basant sur le squelette RGB du mannequin à une posture arbitraire. En outre, Poly-GAN réalise le collage d'images indépendamment de l'orientation du vêtement, ainsi que le remplissage (inpainting) sur le masque du vêtement lorsque celui-ci présente des trous irréguliers. Notre système obtient des résultats quantitatifs de pointe sur les métriques d'indice de similarité structurelle (SSIM) et de score d'Inception, sur le jeu de données DeepFashion.