HyperAIHyperAI

Command Palette

Search for a command to run...

Correspondance sémantique non supervisée utilisant Stable Diffusion

Eric Hedlin Gopal Sharma Shweta Mahajan Hossam Isack Abhishek Kar Andrea Tagliasacchi Kwang Moo Yi

Résumé

Les modèles de diffusion texte-image sont désormais capables de générer des images souvent indiscernables des images réelles. Pour produire de telles images, ces modèles doivent comprendre le sens des objets qu’ils sont censés générer. Dans ce travail, nous montrons qu’il est possible, sans entraînement supplémentaire, d’exploiter cette connaissance sémantique intégrée aux modèles de diffusion afin de trouver des correspondances sémantiques — c’est-à-dire des régions dans plusieurs images qui ont le même sens sémantique. Plus précisément, étant donné une image, nous optimisons les embeddings de prompt de ces modèles afin d’obtenir une attention maximale sur les régions d’intérêt. Ces embeddings optimisés capturent des informations sémantiques relatives à la localisation, qu’il est ensuite possible de transférer vers une autre image. Grâce à cette approche, nous obtenons des résultats comparables à l’état de l’art fortement supervisé sur le jeu de données PF-Willow, et surpassons significativement (de 20,9 % en termes relatifs) toutes les méthodes faiblement ou non supervisées existantes sur les jeux de données PF-Willow, CUB-200 et SPair-71k.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp