HyperAIHyperAI

Command Palette

Search for a command to run...

Unüberwachte semantische Korrespondenz mittels Stable Diffusion

Eric Hedlin Gopal Sharma Shweta Mahajan Hossam Isack Abhishek Kar Andrea Tagliasacchi Kwang Moo Yi

Zusammenfassung

Text-to-Image-Diffusionsmodelle sind heute in der Lage, Bilder zu generieren, die oft von echten Bildern nicht zu unterscheiden sind. Um solche Bilder zu erzeugen, müssen diese Modelle die Semantik der Objekte verstehen, die sie generieren sollen. In dieser Arbeit zeigen wir, dass man ohne jegliches Training diese semantische Kenntnis innerhalb von Diffusionsmodellen nutzen kann, um semantische Korrespondenzen – also Orte in mehreren Bildern mit derselben semantischen Bedeutung – zu finden. Konkret optimieren wir für ein gegebenes Bild die Prompt-Embeddings dieser Modelle, um die Aufmerksamkeit auf die Regionen von Interesse zu maximieren. Diese optimierten Embeddings erfassen semantische Informationen über die Position, die anschließend auf ein anderes Bild übertragen werden können. Auf diese Weise erreichen wir Ergebnisse, die dem stark beschrifteten Stand der Technik auf dem PF-Willow-Datensatz entsprechen, und übertrumpfen signifikant (20,9 % relative Verbesserung) alle bestehenden schwach- oder unsupervisierten Methoden auf den Datensätzen PF-Willow, CUB-200 und SPair-71k.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp