HyperAIHyperAI
il y a 11 jours

Amélioration des modèles de diffusion pour une essayage virtuel authentique dans des conditions réelles

Yisol Choi, Sangkyung Kwak, Kyungmin Lee, Hyungwon Choi, Jinwoo Shin
Amélioration des modèles de diffusion pour une essayage virtuel authentique dans des conditions réelles
Résumé

Ce papier s'intéresse au « virtual try-on » basé sur des images, une tâche qui consiste à générer une image d'une personne portant un vêtement sélectionné, à partir d'une paire d'images représentant respectivement la personne et le vêtement. Les travaux antérieurs ont adapté des modèles de diffusion d'insertion exemplaire existants pour le virtual try-on afin d'améliorer la naturalité des images générées par rapport à d'autres méthodes (par exemple, basées sur les GAN), mais ils échouent à préserver fidèlement l'identité du vêtement. Pour surmonter cette limitation, nous proposons un nouveau modèle de diffusion qui améliore la fidélité du vêtement et génère des images de virtual try-on authentiques. Notre méthode, nommée IDM-VTON, utilise deux modules distincts pour encoder les sémantiques de l'image du vêtement : en s'appuyant sur l'architecture UNet de base du modèle de diffusion, 1) les sémantiques de haut niveau extraites par un encodeur visuel sont fusionnées dans la couche d'attention croisée, et 2) les caractéristiques de bas niveau extraites par un UNet parallèle sont intégrées dans la couche d'attention auto-associative. Par ailleurs, nous fournissons des prompts textuels détaillés pour les images du vêtement et de la personne afin d'accentuer l'authenticité des visuels générés. Enfin, nous proposons une méthode de personnalisation basée sur une paire d'images personne-vêtement, qui améliore significativement la fidélité et l'authenticité des résultats. Nos résultats expérimentaux montrent que notre méthode surpasser les approches antérieures (à la fois basées sur la diffusion et sur les GAN) en matière de préservation des détails du vêtement et de génération d'images de virtual try-on authentiques, tant sur le plan qualitatif que quantitatif. En outre, la méthode de personnalisation proposée démontre son efficacité dans un scénario réel. Des visualisations supplémentaires sont disponibles sur notre page de projet : https://idm-vton.github.io

Amélioration des modèles de diffusion pour une essayage virtuel authentique dans des conditions réelles | Articles de recherche récents | HyperAI