ViCE: Verbesserung des dichten Repräsentationslernens durch Superpixelisierung und Kontrastierung der Clustervergabe

Kürzlich haben selbstüberwachte Modelle eine Leistung gezeigt, die mit überwachten Methoden gleichwertig oder sogar besser ist, was den Weg für KI-Systeme ebnen könnte, um visuelle Repräsentationen aus praktisch unbegrenzten Daten zu lernen. Diese Methoden sind jedoch in der Regel klassifikationsbasiert und daher ineffektiv beim Lernen hochaufgelöster Merkmalskarten, die präzise räumliche Informationen bewahren. In dieser Arbeit werden Superpixel eingeführt, um das selbstüberwachte Lernen dichter, semantisch reicher visueller Konzept-Einbettungen zu verbessern. Die Zerlegung von Bildern in eine kleine Anzahl visuell kohärenter Regionen reduziert die Rechenkomplexität um den Faktor $\mathcal{O}(1000)$, während Details erhalten bleiben. Experimentell zeigen wir, dass das Kontrastieren über Regionen die Effektivität kontrastbasierter Lernmethoden verbessert, ihre Anwendbarkeit auf hochaufgelöste Bilder erweitert, die Überclusterungsleistung steigert, Superpixel besser als Gitter sind und regionale Maskierung die Leistung erhöht. Die Ausdrucksstärke unserer dichten Einbettungen wird durch eine Verbesserung des Standes der Technik (SOTA) bei der unüberwachten semantischen Segmentierung auf Cityscapes und für Faltungsmodelle auf COCO demonstriert.