UPGPT : Modèle de diffusion universel pour la génération, l'édition et le transfert de pose d'images de personnes

Les modèles de génération d'images à partir de texte (T2I), tels que StableDiffusion, ont été utilisés pour produire des images de haute qualité représentant des personnes. Cependant, en raison du caractère aléatoire du processus de génération, l'apparence de la personne varie, par exemple en termes de posture, de visage et d'habillement, même lorsqu'on utilise le même prompt textuel. Cette incohérence dans l'apparence rend les T2I inadaptés pour le transfert de posture. Nous remédions à cette situation en proposant un modèle de diffusion multimodal qui accepte des prompts textuels, posturaux et visuels. Notre modèle constitue la première méthode unifiée capable d'effectuer toutes les tâches liées aux images de personnes : génération, transfert de posture et édition sans masque. Nous introduisons également l'utilisation directe de paramètres d'un modèle corporel 3D à faible dimension pour démontrer une nouvelle capacité : l'interpolation simultanée de la posture et de la vue caméra tout en maintenant l'apparence de la personne.