Eine Geschichte von zwei Merkmalen: Stabile Diffusion ergänzt DINO für Zero-Shot-Semantische Korrespondenz

Text-zu-Bild-Diffusionsmodelle haben erhebliche Fortschritte bei der Erzeugung und Bearbeitung hochwertiger Bilder gemacht. Als Ergebnis haben zahlreiche Ansätze die Fähigkeit untersucht, Diffusionsmodellmerkmale zur Verarbeitung einzelner Bilder für nachgelagerte Aufgaben zu nutzen, z.B. Klassifizierung, semantische Segmentierung und Stilisierung. Allerdings ist bislang wenig bekannt über das, was diese Merkmale über mehrere, verschiedene Bilder und Objekte preisgeben. In dieser Arbeit nutzen wir Stable Diffusion (SD)-Merkmale für semantische und dichte Korrespondenzanalyse und entdecken, dass mit einfacher Nachbearbeitung SD-Merkmale quantitativ vergleichbar mit den besten aktuellen Repräsentationen performen. Interessanterweise zeigt die qualitative Analyse, dass SD-Merkmale sehr unterschiedliche Eigenschaften aufweisen im Vergleich zu existierenden Merkmalen des Repräsentationslernens, wie zum Beispiel dem kürzlich veröffentlichten DINOv2: während DINOv2 spärliche aber genaue Übereinstimmungen liefert, bieten SD-Merkmale hochwertige räumliche Informationen, manchmal jedoch ungenaue semantische Übereinstimmungen. Wir demonstrieren, dass eine einfache Fusion dieser beiden Merkmale überraschend gut funktioniert und eine zero-shot-Evaluation unter Verwendung nächster Nachbarn auf diesen gefusionierten Merkmalen einen signifikanten Leistungsanstieg gegenüber den besten aktuellen Methoden auf Benchmark-Datensätzen wie SPair-71k, PF-Pascal und TSS bietet. Zudem zeigen wir, dass diese Korrespondenzen interessante Anwendungen ermöglichen, wie zum Beispiel das Austauschen von Instanzen in zwei Bildern.