Lernen, einen textbasierten Masken für die offene semantische Segmentierung nur aus Bild-Text-Paaren zu generieren

Wir befassen uns mit der offenen Welt-Semantischen Segmentierung, die darauf abzielt, beliebige visuelle Konzepte in Bildern zu segmentieren, indem nur Bild-Text-Paare ohne dichte Annotationen verwendet werden. Bestehende Methoden für die offene Welt-Segmentierung haben durch die Anwendung von kontrastivem Lernen (CL) beeindruckende Fortschritte erzielt, um vielfältige visuelle Konzepte zu lernen und das gelernte bildbasierte Verständnis auf die Segmentierungsaufgabe zu übertragen. Diese CL-basierten Methoden leiden jedoch unter einer Diskrepanz zwischen Training und Test, da sie während des Trainings nur die Ausrichtung von Bild und Text berücksichtigen, während die Segmentierung während des Tests eine Ausrichtung von Region und Text erfordert. In dieser Arbeit schlagen wir einen neuen Text-gestützten kontrastiven Lernrahmen (TCL) vor, der es einem Modell ermöglicht, direkt die Ausrichtung von Region und Text zu lernen. Unsere Methode erstellt eine Segmentierungsmaske für einen gegebenen Text, extrahiert ein textgestütztes Bildembedding aus der maskierten Region und ordnet es dem Textembedding mittels TCL zu. Durch das direkte Lernen der Ausrichtung von Region und Text fördert unser Rahmenwerk den direkten Verbesserungen der Qualität der generierten Segmentierungsmasken. Darüber hinaus präsentieren wir ein einheitliches Evaluationsprotokoll mit acht weit verbreiteten Datensätzen für semantische Segmentierung, um eine strenge und faire Vergleichbarkeit sicherzustellen. TCL erreicht den aktuellen Stand der Technik bei zero-shot-Segmentierungsleistungen mit großem Vorsprung in allen Datensätzen. Der Quellcode ist unter https://github.com/kakaobrain/tcl verfügbar.