ClothFlow : un modèle basé sur les flux pour la génération de personnes habillées

Nous présentons ClothFlow, un modèle génératif basé sur le flux d’apparence, conçu pour la génération d’images de personnes vêtues à partir d’une posture cible, dans le cadre de la génération d’images de personnes guidée par la posture et du « virtual try-on ». En estimant un flux dense entre les régions vestimentaires source et cible, ClothFlow modélise efficacement les changements géométriques et transfère naturellement l’apparence afin de synthétiser des images nouvelles, comme illustré à la Figure 1. Cette approche repose sur un cadre en trois étapes : 1) Conditionnellement à une posture cible, nous estimons tout d’abord un layout sémantique de la personne, afin d’offrir une guidance plus riche au processus de génération. 2) À partir de deux réseaux de pyramide de caractéristiques, un réseau en cascade d’estimation de flux permet ensuite d’estimer avec précision le correspondance d’apparence entre les régions vestimentaires correspondantes. Le flux dense ainsi obtenu déforme l’image source de manière flexible pour tenir compte des déformations. 3) Enfin, un réseau génératif prend les régions vestimentaires déformées comme entrée et rend la vue cible. Nous menons des expériences approfondies sur le jeu de données DeepFashion pour la génération d’images de personnes guidée par la posture, ainsi que sur le jeu de données VITON pour la tâche de « virtual try-on ». Les résultats qualitatifs et quantitatifs obtenus démontrent de manière convaincante l’efficacité de notre méthode.