Command Palette
Search for a command to run...
Offene Vokabular-Semantische Segmentierung mit patchausgerichteter kontrastiver Lernmethode
Offene Vokabular-Semantische Segmentierung mit patchausgerichteter kontrastiver Lernmethode
Jishnu Mukhoti Tsung-Yu Lin Omid Poursaeed Rui Wang Ashish Shah Philip H.S. Torr Ser-Nam Lim
Zusammenfassung
Wir stellen Patch Aligned Contrastive Learning (PACL) vor, eine modifizierte Kompatibilitätsfunktion für den Contrastive Loss von CLIP, die darauf abzielt, eine Ausrichtung zwischen den Patch-Token des Visuencodeurs und dem CLS-Token des Textencodeurs herzustellen. Durch eine solche Ausrichtung kann ein Modell Regionen einer Abbildung identifizieren, die einer gegebenen Texteingabe entsprechen, und somit nahtlos auf die Aufgabe der offenen-Vokabular-Semantiksegmentierung übertragen werden, ohne dass während des Trainings Segmenteierungsannotierungen benötigt werden. Unter Verwendung vortrainierter CLIP-Encoder mit PACL erreichen wir den Stand der Technik bei der Aufgabe der offenen-Vokabular-Zero-Shot-Segmentierung auf vier verschiedenen Segmentierungsbenchmarks: Pascal VOC, Pascal Context, COCO Stuff und ADE20K. Darüber hinaus zeigen wir, dass PACL auch für bildweite Vorhersagen anwendbar ist und im Vergleich zu CLIP, wenn es mit einem CLIP-Backbone verwendet wird, eine allgemeine Verbesserung der Zero-Shot-Klassifikationsgenauigkeit auf einer Reihe von 12 Bildklassifikationsdatensätzen erzielt.