HyperAIHyperAI
vor 11 Tagen

Offene Vokabular-Semantische Segmentierung mit patchausgerichteter kontrastiver Lernmethode

Jishnu Mukhoti, Tsung-Yu Lin, Omid Poursaeed, Rui Wang, Ashish Shah, Philip H.S. Torr, Ser-Nam Lim
Offene Vokabular-Semantische Segmentierung mit patchausgerichteter kontrastiver Lernmethode
Abstract

Wir stellen Patch Aligned Contrastive Learning (PACL) vor, eine modifizierte Kompatibilitätsfunktion für den Contrastive Loss von CLIP, die darauf abzielt, eine Ausrichtung zwischen den Patch-Token des Visuencodeurs und dem CLS-Token des Textencodeurs herzustellen. Durch eine solche Ausrichtung kann ein Modell Regionen einer Abbildung identifizieren, die einer gegebenen Texteingabe entsprechen, und somit nahtlos auf die Aufgabe der offenen-Vokabular-Semantiksegmentierung übertragen werden, ohne dass während des Trainings Segmenteierungsannotierungen benötigt werden. Unter Verwendung vortrainierter CLIP-Encoder mit PACL erreichen wir den Stand der Technik bei der Aufgabe der offenen-Vokabular-Zero-Shot-Segmentierung auf vier verschiedenen Segmentierungsbenchmarks: Pascal VOC, Pascal Context, COCO Stuff und ADE20K. Darüber hinaus zeigen wir, dass PACL auch für bildweite Vorhersagen anwendbar ist und im Vergleich zu CLIP, wenn es mit einem CLIP-Backbone verwendet wird, eine allgemeine Verbesserung der Zero-Shot-Klassifikationsgenauigkeit auf einer Reihe von 12 Bildklassifikationsdatensätzen erzielt.

Offene Vokabular-Semantische Segmentierung mit patchausgerichteter kontrastiver Lernmethode | Neueste Forschungsarbeiten | HyperAI