ReCo: Abrufen und Co-Segmentierung für Zero-Shot-Transfer

Semantische Segmentierung hat eine breite Anwendungsspektrum, aber ihre praktische Auswirkung wurde durch die erheblichen Annotationkosten, die für eine Implementierung erforderlich sind, erheblich eingeschränkt. Segmentierungsverfahren, die auf Überwachung verzichten können, umgehen diese Kosten, erfordern jedoch das unangenehme Vorgehen, beispielhafte annotierte Daten aus der Zielverteilung zur Zuordnung von Begriffsnamen zu Vorhersagen bereitzustellen. Eine alternative Forschungsrichtung im Bereich der Sprachbild-Vortrainings hat kürzlich das Potenzial gezeigt, Modelle zu produzieren, die sowohl Namen über große Wortschatze von Konzepten zuweisen als auch Null-Shot-Übertragung für Klassifizierung ermöglichen können. Diese Modelle zeigen jedoch nicht vergleichbare Segmentierungsfähigkeiten. In dieser Arbeit streben wir danach, eine Synthese dieser beiden Ansätze zu erreichen, die ihre Stärken kombiniert. Wir nutzen die Retrievalfähigkeiten eines solchen Sprachbild-Vortrainingsmodells, nämlich CLIP (Contrastive Language–Image Pretraining), um dynamisch Trainingsmengen aus unannotierten Bildern für beliebige Sammlungen von Begriffsnamen zusammenzustellen und nutzen die robusten Korrespondenzen moderner Bildrepräsentationen zur gemeinsamen Segmentierung von Entitäten innerhalb der resultierenden Sammlungen. Die synthetischen Segmentiersammlungen werden dann verwendet, um ein Segmentierungsmodell zu konstruieren (ohne Pixelannotationen zu benötigen), dessen Wissensbasis über Konzepte vom skalierbaren Vortrainingsprozess von CLIP stammt. Wir zeigen, dass unser Ansatz, Retrieve and Co-segment (ReCo), sich günstig mit unsupervisierten Segmentierungsansätzen vergleicht und gleichzeitig die Bequemlichkeit benennbarer Vorhersagen und Null-Shot-Übertragung beibehält. Zudem demonstrieren wir die Fähigkeit von ReCo, spezialisierte Segmentierer für äußerst seltene Objekte zu generieren.