Voost : un transformateur de diffusion unifié et évolutif pour l’essayage virtuel bidirectionnel et le retrait virtuel

La fonction d'essayage virtuel vise à générer une image réaliste d'une personne portant un vêtement cible, mais le modèle précis de la correspondance entre le vêtement et le corps reste un défi persistant, en particulier en présence de variations de posture ou d'apparence. Dans cet article, nous proposons Voost — un cadre unifié et évolutif qui apprend simultanément l'essayage virtuel et l'essayage inverse à l’aide d’un seul transformateur à diffusion. En modélisant conjointement ces deux tâches, Voost permet à chaque paire vêtement-personne de superviser les deux directions, tout en offrant une conditionnalité flexible selon le sens de génération et la catégorie de vêtement, ce qui renforce le raisonnement relationnel entre vêtement et corps sans recourir à des réseaux spécifiques à une tâche, à des pertes auxiliaires ou à des étiquettes supplémentaires. En outre, nous introduisons deux techniques d’inférence : une mise à l’échelle de la température de l’attention pour améliorer la robustesse aux variations de résolution ou de masque, et un échantillonnage auto-correctif qui exploite la cohérence bidirectionnelle entre les tâches. Des expériences étendues montrent que Voost atteint des résultats de pointe sur les benchmarks d’essayage virtuel et d’essayage inverse, surpassant de manière cohérente des bases solides en termes de précision d’alignement, de fidélité visuelle et de généralisation.