Offene Vokabular-Semantische Segmentierung mit patchausgerichteter kontrastiver Lernmethode

Wir stellen Patch Aligned Contrastive Learning (PACL) vor, eine modifizierte Kompatibilitätsfunktion für den Contrastive Loss von CLIP, die darauf abzielt, eine Ausrichtung zwischen den Patch-Token des Visuencodeurs und dem CLS-Token des Textencodeurs herzustellen. Durch eine solche Ausrichtung kann ein Modell Regionen einer Abbildung identifizieren, die einer gegebenen Texteingabe entsprechen, und somit nahtlos auf die Aufgabe der offenen-Vokabular-Semantiksegmentierung übertragen werden, ohne dass während des Trainings Segmenteierungsannotierungen benötigt werden. Unter Verwendung vortrainierter CLIP-Encoder mit PACL erreichen wir den Stand der Technik bei der Aufgabe der offenen-Vokabular-Zero-Shot-Segmentierung auf vier verschiedenen Segmentierungsbenchmarks: Pascal VOC, Pascal Context, COCO Stuff und ADE20K. Darüber hinaus zeigen wir, dass PACL auch für bildweite Vorhersagen anwendbar ist und im Vergleich zu CLIP, wenn es mit einem CLIP-Backbone verwendet wird, eine allgemeine Verbesserung der Zero-Shot-Klassifikationsgenauigkeit auf einer Reihe von 12 Bildklassifikationsdatensätzen erzielt.