Command Palette
Search for a command to run...
Diffus, attendieren und segmentieren: Unüberwachtes Zero-Shot-Segmentieren mithilfe von Stable Diffusion
Diffus, attendieren und segmentieren: Unüberwachtes Zero-Shot-Segmentieren mithilfe von Stable Diffusion
Junjiao Tian Lavisha Aggarwal Andrea Colaco Zsolt Kira Mar Gonzalez-Franco
Zusammenfassung
Die Erzeugung qualitativ hochwertiger Segmentierungsmasken für Bilder stellt ein zentrales Problem im Bereich des Computersehens dar. In jüngster Forschung wurden großskalige überwachte Trainingsansätze untersucht, um eine Zero-Shot-Segmentierung für nahezu beliebige Bildstile zu ermöglichen, sowie unsupervisierte Trainingsansätze, um die Segmentierung ohne dichte Annotationen zu erreichen. Dennoch bleibt die Entwicklung eines Modells, das jegliche Objekte in einer Zero-Shot-Weise ohne jegliche Annotationen segmentieren kann, weiterhin herausfordernd. In diesem Paper schlagen wir vor, die Selbst-Attention-Schichten in stabilen Diffusionsmodellen zu nutzen, um dieses Ziel zu erreichen, da das vortrainierte stabile Diffusionsmodell inhärente Objektkonzepte innerhalb seiner Attention-Schichten erlernt hat. Konkret führen wir einen einfachen, aber effektiven iterativen Verschmelzungsprozess ein, der auf der Messung der KL-Divergenz zwischen Attention-Maps basiert, um diese zu gültigen Segmentierungsmasken zu verschmelzen. Die vorgeschlagene Methode erfordert weder Training noch sprachliche Abhängigkeit, um qualitativ hochwertige Segmentierungen für beliebige Bilder zu extrahieren. Auf dem COCO-Stuff-27-Datensatz übertrifft unsere Methode die bisher beste unsupervisierte Zero-Shot-SOTA-Methode um absolute 26 Prozentpunkte in der Pixelgenauigkeit und 17 Prozentpunkte in der mittleren IoU. Die Projektseite ist unter \url{https://sites.google.com/view/diffseg/home} zu finden.