Unüberwachte Bild-Semantiksegmentierung mittels Superpixel und Graph Neural Networks

Unüberwachtes Bildsegmentierung ist eine wichtige Aufgabe in vielen realen Anwendungsszenarien, in denen annotierte Daten nur schwer verfügbar sind. In diesem Paper stellen wir einen neuartigen Ansatz vor, der jüngste Fortschritte im Bereich des unüberwachten Lernens durch eine Kombination aus Maximierung der gegenseitigen Information (Mutual Information Maximization, MIM), neuronalen Superpixel-Segmentierung und Graph Neural Networks (GNNs) in einer end-to-end-Weise nutzt – ein Ansatz, der bisher noch nicht untersucht wurde. Wir profitieren von der kompakten Darstellung durch Superpixel und kombinieren diese mit GNNs, um starke und semantisch sinnvolle Repräsentationen von Bildern zu lernen. Insbesondere zeigen wir, dass unser GNN-basierter Ansatz die Interaktionen zwischen entfernten Bildpunkten modellieren kann und somit als starker Prior für bestehende CNNs dient, um die Genauigkeit zu verbessern. Unsere Experimente belegen sowohl qualitative als auch quantitative Vorteile unseres Ansatzes gegenüber aktuellen State-of-the-Art-Methoden an vier etablierten Datensätzen.