ARNAQUE ! Transfert d'humains entre images avec la Modulation d'Attention Croisée Sémantique

Un corpus important de travaux récents vise la génération d'images conditionnée sémantiquement. La plupart de ces méthodes se concentrent sur la tâche plus restreinte du transfert de pose et négligent la tâche plus complexe du transfert de sujet, qui consiste non seulement à transférer la pose mais aussi l'apparence et le fond. Dans ce travail, nous introduisons SCAM (Semantic Cross Attention Modulation), un système qui encode des informations riches et diverses dans chaque région sémantique de l'image (y compris le premier plan et l'arrière-plan), permettant ainsi une génération précise avec une emphase sur les détails fins. Cela est rendu possible grâce au Semantic Attention Transformer Encoder qui extrait plusieurs vecteurs latents pour chaque région sémantique, et au générateur correspondant qui exploite ces multiples latents en utilisant la modulation d'attention croisée sémantique. Il est formé uniquement dans un cadre de reconstruction, tandis que le transfert de sujet est effectué lors des tests. Notre analyse montre que notre architecture proposée réussit à encoder la diversité d'apparence dans chaque région sémantique. Des expériences approfondies sur les jeux de données iDesigner et CelebAMask-HD montrent que SCAM surpasse SEAN et SPADE ; en outre, il établit un nouveau standard dans le domaine du transfert de sujet.