HyperAIHyperAI
il y a 7 jours

Correspondance sémantique non supervisée utilisant Stable Diffusion

Eric Hedlin, Gopal Sharma, Shweta Mahajan, Hossam Isack, Abhishek Kar, Andrea Tagliasacchi, Kwang Moo Yi
Correspondance sémantique non supervisée utilisant Stable Diffusion
Résumé

Les modèles de diffusion texte-image sont désormais capables de générer des images souvent indiscernables des images réelles. Pour produire de telles images, ces modèles doivent comprendre le sens des objets qu’ils sont censés générer. Dans ce travail, nous montrons qu’il est possible, sans entraînement supplémentaire, d’exploiter cette connaissance sémantique intégrée aux modèles de diffusion afin de trouver des correspondances sémantiques — c’est-à-dire des régions dans plusieurs images qui ont le même sens sémantique. Plus précisément, étant donné une image, nous optimisons les embeddings de prompt de ces modèles afin d’obtenir une attention maximale sur les régions d’intérêt. Ces embeddings optimisés capturent des informations sémantiques relatives à la localisation, qu’il est ensuite possible de transférer vers une autre image. Grâce à cette approche, nous obtenons des résultats comparables à l’état de l’art fortement supervisé sur le jeu de données PF-Willow, et surpassons significativement (de 20,9 % en termes relatifs) toutes les méthodes faiblement ou non supervisées existantes sur les jeux de données PF-Willow, CUB-200 et SPair-71k.

Correspondance sémantique non supervisée utilisant Stable Diffusion | Articles de recherche récents | HyperAI