HyperAIHyperAI
vor 16 Tagen

InfoSeg: Unsupervised Semantic Image Segmentation mit Maximierung der gegenseitigen Information

Robert Harb, Patrick Knöbelreiter
InfoSeg: Unsupervised Semantic Image Segmentation mit Maximierung der gegenseitigen Information
Abstract

Wir stellen eine neue Methode für die unsupervisierte semantische Bildsegmentierung vor, die auf der Maximierung der gegenseitigen Information zwischen lokalen und globalen hochwertigen Bildmerkmalen basiert. Der zentrale Ansatz unserer Arbeit nutzt jüngste Fortschritte im Bereich des selbstüberwachten Lernens von Bildrepräsentationen. Während herkömmliche Ansätze zur Repräsentationslernen eine einzelne hochwertige Merkmalsvektoren berechnen, der die gesamte Bildinformation erfasst, berechnen wir mehrere hochwertige Merkmale, wobei jedes Merkmal eine spezifische semantische Kategorie innerhalb des Bildes repräsentiert. Dazu schlagen wir ein neuartiges zweistufiges Lernverfahren vor, das aus einem Segmentierungs- und einem Schritt zur Maximierung der gegenseitigen Information besteht. Im ersten Schritt segmentieren wir Bilder anhand lokaler und globaler Merkmale. Im zweiten Schritt maximieren wir die gegenseitige Information zwischen lokalen Merkmalen und den hochwertigen Merkmalen ihrer jeweiligen Kategorie. Für das Training verwenden wir ausschließlich ungeetikettierte Bilder und beginnen mit einer zufälligen Netzwerkinitialisierung. Zur quantitativen und qualitativen Bewertung nutzen wir etablierte Benchmarks sowie das neue, in dieser Arbeit vorgestellte Benchmark COCO-Persons, das als herausforderndes, neuartiges Testset eingeführt wird. InfoSeg übertrifft signifikant die derzeitige State-of-the-Art: So erreichen wir beispielsweise eine relative Steigerung um 26 % bei der Pixel Accuracy-Metrik auf dem COCO-Stuff-Datensatz.