Command Palette
Search for a command to run...
FitDiT : Améliorer les Détails Authentiques des Vêtements pour une Essayage Virtuel Haute Fidélité
FitDiT : Améliorer les Détails Authentiques des Vêtements pour une Essayage Virtuel Haute Fidélité
Boyuan Jiang Xiaobin Hu Donghao Luo Qingdong He Chengming Xu Jinlong Peng Jiangning Zhang Chengjie Wang Yunsheng Wu Yanwei Fu
Résumé
Bien que le essai virtuel d'images ait connu des progrès considérables, les approches émergentes rencontrent encore des défis pour produire des images de haute fidélité et robustes dans divers scénarios. Ces méthodes peinent souvent à maintenir la conscience des textures et à s'adapter aux différentes tailles, ce qui entrave leur efficacité globale. Pour remédier à ces limitations, nous proposons une nouvelle technique d'amélioration de la perception des vêtements, appelée FitDiT, conçue pour un essai virtuel de haute fidélité en utilisant des Transformers de diffusion (DiT) qui allouent plus de paramètres et d'attention aux caractéristiques de haute résolution.Premièrement, afin d'améliorer davantage la maintenance de la conscience des textures, nous introduisons un extracteur de texture de vêtement qui incorpore l'évolution des a priori vestimentaires pour affiner les caractéristiques des vêtements, facilitant ainsi une meilleure capture de détails riches tels que les rayures, motifs et textes. De plus, nous introduisons l'apprentissage dans le domaine fréquentiel en personnalisant une perte de distance fréquentielle pour améliorer les détails vestimentaires à haute fréquence.Pour aborder le problème de l'adaptation aux tailles, nous utilisons une stratégie de masque dilaté-relâché qui s'adapte à la longueur correcte des vêtements, évitant ainsi la génération de vêtements qui remplissent toute la zone du masque lors d'un essai virtuel intercatégoriel. Grâce à ces conceptions, FitDiT surpasse toutes les lignes de base dans les évaluations qualitatives et quantitatives. Il excelle dans la production de vêtements bien ajustés avec des détails photoréalistes et complexes, tout en atteignant des temps d'inférence compétitifs de 4,57 secondes pour une seule image 1024x768 après l'affinement de la structure DiT, surpassant ainsi les méthodes existantes.