Dichte Siamese-Netzwerk für dichte unbeaufsichtigte Lernverfahren

Diese Arbeit präsentiert das Dense Siamese Network (DenseSiam), einen einfachen, unsupervisierten Lernrahmen für Aufgaben der dichten Vorhersage. Er lernt visuelle Repräsentationen, indem die Ähnlichkeit zwischen zwei Ansichten eines Bildes unter Einhaltung zweier Konsistenztypen maximiert wird: Pixel-Konsistenz und Region-Konsistenz. Konkret maximiert DenseSiam zunächst die räumliche Konsistenz auf Pixel-Ebene basierend auf der exakten räumlichen Korrespondenz im überlappenden Bereich. Zusätzlich extrahiert es eine Gruppe von Region-Embeddings, die bestimmten Unterregionen im überlappenden Bereich entsprechen, um diese zur Erzielung von Region-Konsistenz zu kontrastieren. Im Gegensatz zu früheren Methoden, die negative Pixel-Paare, Momentum-Encoder oder heuristische Masken erfordern, profitiert DenseSiam von dem einfachen Siamese-Netzwerk und optimiert die Konsistenz verschiedener Granularitäten. Zudem wird gezeigt, dass die einfache räumliche Korrespondenz und die interagierenden Region-Embeddings ausreichend sind, um Ähnlichkeit effektiv zu lernen. Wir evaluieren DenseSiam auf ImageNet und erzielen wettbewerbsfähige Verbesserungen bei verschiedenen nachgeschalteten Aufgaben. Zudem zeigen wir, dass der einfache Rahmen bereits direkt dichte Vorhersageaufgaben durchführen kann, wenn lediglich zusätzliche, auf die jeweilige Aufgabe zugeschnittene Verlustfunktionen hinzugefügt werden. Auf einem etablierten Benchmark für unsupervisierte semantische Segmentierung übertrifft DenseSiam state-of-the-art-Methoden um 2,1 mIoU bei nur 28 % der Trainingskosten. Der Quellcode und die Modelle sind unter https://github.com/ZwwWayne/DenseSiam verfügbar.