vor 11 Tagen

Offene Vokabular-Semantische Segmentierung mit patchausgerichteter kontrastiver Lernmethode

Jishnu Mukhoti, Tsung-Yu Lin, Omid Poursaeed, Rui Wang, Ashish Shah, Philip H.S. Torr, Ser-Nam Lim

Abstract

Wir stellen Patch Aligned Contrastive Learning (PACL) vor, eine modifizierte Kompatibilitätsfunktion für den Contrastive Loss von CLIP, die darauf abzielt, eine Ausrichtung zwischen den Patch-Token des Visuencodeurs und dem CLS-Token des Textencodeurs herzustellen. Durch eine solche Ausrichtung kann ein Modell Regionen einer Abbildung identifizieren, die einer gegebenen Texteingabe entsprechen, und somit nahtlos auf die Aufgabe der offenen-Vokabular-Semantiksegmentierung übertragen werden, ohne dass während des Trainings Segmenteierungsannotierungen benötigt werden. Unter Verwendung vortrainierter CLIP-Encoder mit PACL erreichen wir den Stand der Technik bei der Aufgabe der offenen-Vokabular-Zero-Shot-Segmentierung auf vier verschiedenen Segmentierungsbenchmarks: Pascal VOC, Pascal Context, COCO Stuff und ADE20K. Darüber hinaus zeigen wir, dass PACL auch für bildweite Vorhersagen anwendbar ist und im Vergleich zu CLIP, wenn es mit einem CLIP-Backbone verwendet wird, eine allgemeine Verbesserung der Zero-Shot-Klassifikationsgenauigkeit auf einer Reihe von 12 Bildklassifikationsdatensätzen erzielt.