HyperAIHyperAI
vor 17 Tagen

Diffus, attendieren und segmentieren: Unüberwachtes Zero-Shot-Segmentieren mithilfe von Stable Diffusion

Junjiao Tian, Lavisha Aggarwal, Andrea Colaco, Zsolt Kira, Mar Gonzalez-Franco
Diffus, attendieren und segmentieren: Unüberwachtes Zero-Shot-Segmentieren mithilfe von Stable Diffusion
Abstract

Die Erzeugung qualitativ hochwertiger Segmentierungsmasken für Bilder stellt ein zentrales Problem im Bereich des Computersehens dar. In jüngster Forschung wurden großskalige überwachte Trainingsansätze untersucht, um eine Zero-Shot-Segmentierung für nahezu beliebige Bildstile zu ermöglichen, sowie unsupervisierte Trainingsansätze, um die Segmentierung ohne dichte Annotationen zu erreichen. Dennoch bleibt die Entwicklung eines Modells, das jegliche Objekte in einer Zero-Shot-Weise ohne jegliche Annotationen segmentieren kann, weiterhin herausfordernd. In diesem Paper schlagen wir vor, die Selbst-Attention-Schichten in stabilen Diffusionsmodellen zu nutzen, um dieses Ziel zu erreichen, da das vortrainierte stabile Diffusionsmodell inhärente Objektkonzepte innerhalb seiner Attention-Schichten erlernt hat. Konkret führen wir einen einfachen, aber effektiven iterativen Verschmelzungsprozess ein, der auf der Messung der KL-Divergenz zwischen Attention-Maps basiert, um diese zu gültigen Segmentierungsmasken zu verschmelzen. Die vorgeschlagene Methode erfordert weder Training noch sprachliche Abhängigkeit, um qualitativ hochwertige Segmentierungen für beliebige Bilder zu extrahieren. Auf dem COCO-Stuff-27-Datensatz übertrifft unsere Methode die bisher beste unsupervisierte Zero-Shot-SOTA-Methode um absolute 26 Prozentpunkte in der Pixelgenauigkeit und 17 Prozentpunkte in der mittleren IoU. Die Projektseite ist unter \url{https://sites.google.com/view/diffseg/home} zu finden.