Flux d’apparence globale basé sur le style pour l’essai virtuel

Le try-on virtuel basé sur l’image vise à superposer un vêtement en magasin sur une image d’une personne déjà vêtue. Pour y parvenir, une étape clé consiste en une déformation du vêtement (garment warping), qui aligne spatialement le vêtement cible avec les parties du corps correspondantes dans l’image de la personne. Les méthodes précédentes s’appuient généralement sur un modèle d’estimation de flux d’apparence locale, ce qui les rend intrinsèquement sensibles aux poses corporelles complexes, aux occlusions et aux grandes inalignements entre l’image de la personne et celle du vêtement (voir Fig.~\ref{fig:fig1}). Pour surmonter cette limitation, ce travail propose un nouveau modèle d’estimation de flux d’apparence globale. Pour la première fois, une architecture basée sur StyleGAN est adoptée pour l’estimation du flux d’apparence. Cela permet d’exploiter un vecteur de style global afin de coder un contexte global de l’image, permettant ainsi de faire face aux défis mentionnés précédemment. Afin de guider le générateur de flux StyleGAN à accorder davantage d’attention à la déformation locale du vêtement, un module de raffinement du flux est introduit pour ajouter un contexte local. Les résultats expérimentaux sur une base de benchmark populaire pour le try-on virtuel montrent que notre méthode atteint une performance nouvelle référence (state-of-the-art). Elle s’avère particulièrement efficace dans un scénario d’application « in-the-wild », où l’image de référence est une vue complète du corps, entraînant un grand désalignement avec l’image du vêtement (Fig.~\ref{fig:fig1}, partie supérieure). Le code est disponible à l’adresse : \url{https://github.com/SenHe/Flow-Style-VTON}.