Génération d'images de personnes guidée par la pose

Ce document propose un nouveau réseau de génération de personnes guidé par la posture (Pose Guided Person Generation Network, PG$^2$) qui permet de synthétiser des images de personnes dans des postures arbitraires, à partir d'une image de cette personne et d'une nouvelle posture. Notre cadre de génération PG$^2$ utilise explicitement les informations de posture et se compose de deux étapes clés : l'intégration de la posture et le raffinement de l'image. Dans la première étape, l'image conditionnelle et la posture cible sont introduites dans un réseau similaire à U-Net pour générer une image initiale mais grossière de la personne avec la posture cible. La deuxième étape affine ensuite le résultat initial flou en formant un générateur similaire à U-Net de manière antagoniste. Des résultats expérimentaux approfondis sur des images de réidentification 128$\times$64 et des photos de mode 256$\times$256 montrent que notre modèle génère des images de personnes de haute qualité avec des détails convaincants.