Unüberwachte semantische Korrespondenz mittels Stable Diffusion

Text-to-Image-Diffusionsmodelle sind heute in der Lage, Bilder zu generieren, die oft von echten Bildern nicht zu unterscheiden sind. Um solche Bilder zu erzeugen, müssen diese Modelle die Semantik der Objekte verstehen, die sie generieren sollen. In dieser Arbeit zeigen wir, dass man ohne jegliches Training diese semantische Kenntnis innerhalb von Diffusionsmodellen nutzen kann, um semantische Korrespondenzen – also Orte in mehreren Bildern mit derselben semantischen Bedeutung – zu finden. Konkret optimieren wir für ein gegebenes Bild die Prompt-Embeddings dieser Modelle, um die Aufmerksamkeit auf die Regionen von Interesse zu maximieren. Diese optimierten Embeddings erfassen semantische Informationen über die Position, die anschließend auf ein anderes Bild übertragen werden können. Auf diese Weise erreichen wir Ergebnisse, die dem stark beschrifteten Stand der Technik auf dem PF-Willow-Datensatz entsprechen, und übertrumpfen signifikant (20,9 % relative Verbesserung) alle bestehenden schwach- oder unsupervisierten Methoden auf den Datensätzen PF-Willow, CUB-200 und SPair-71k.