CAT-Seg: Cost Aggregation für open-vocabulary semantische Segmentierung

Die offene-vokabulare semantische Segmentierung stellt die Herausforderung dar, jeden Pixel eines Bildes anhand einer breiten Palette an Textbeschreibungen zu klassifizieren. In dieser Arbeit stellen wir einen neuartigen kostengestützten Ansatz vor, um visuell-sprachliche Grundmodelle, insbesondere CLIP, für die anspruchsvolle Aufgabe der semantischen Segmentierung anzupassen. Durch die Aggregation der Kosinus-Ähnlichkeitsscores – also des Kostenvolumens zwischen Bild- und Text-Embeddings – passt unsere Methode CLIP effektiv sowohl für gesehene als auch für nicht gesehene Klassen an, indem sie die Encoder durch Feinabstimmung anpasst und somit die Herausforderungen anspricht, die bestehende Methoden bei der Behandlung bisher unbekannter Klassen begegnen. Auf dieser Grundlage untersuchen wir Methoden zur effektiven Aggregation des Kostenvolumens unter Berücksichtigung seiner multimodalen Natur, die aus der Beziehung zwischen Bild- und Text-Embeddings resultiert. Zudem analysieren wir verschiedene Ansätze zur effizienten Feinabstimmung von CLIP.