ProxyCLIP: Proxy-Aufmerksamkeit verbessert CLIP für die Segmentierung mit offenen Vokabularen

Die offene Vokabular-Semantische Segmentierung erfordert Modelle, die visuelle Repräsentationen effektiv mit semantischen Labels eines offenen Vokabulars integrieren können. Obwohl Kontrastive Sprach-Bild-Vortrainingsmodelle (CLIP) darin hervorragen, visuelle Konzepte aus Text zu erkennen, haben sie oft Schwierigkeiten mit der Segmentkohärenz aufgrund ihrer begrenzten Lokalisierungsfähigkeit. Im Gegensatz dazu zeichnen sich Vision Foundation Models (VFMs) durch die Fähigkeit aus, räumlich konsistente lokale visuelle Repräsentationen zu erwerben, fallen jedoch im semantischen Verständnis zurück. In dieser Arbeit wird ProxyCLIP vorgestellt, ein innovativer Rahmen, der darauf abzielt, die Stärken von CLIP und VFMs zu harmonisieren und so eine verbesserte offene Vokabular-Semantische Segmentierung zu ermöglichen. ProxyCLIP nutzt die räumliche Merkmalskorrespondenz von VFMs als Form des Proxy-Attentionsmechanismus, um CLIP zu erweitern und somit die robuste lokale Konsistenz der VFMs zu übernehmen, während es gleichzeitig die außergewöhnliche Null-Shot-Transfer-Fähigkeit von CLIP beibehält. Wir schlagen eine adaptive Normalisierungs- und Maskierungsstrategie vor, um den Proxy-Attention-Mechanismus von VFMs zu erhalten, was eine Anpassung an verschiedene VFMs ermöglicht. Bemerkenswerterweise verbessert ProxyCLIP als trainingsfreier Ansatz den durchschnittlichen mittleren Schnittmenge über Vereinigung (mIoU) auf acht Benchmarks signifikant von 40,3 auf 44,4 und zeigt damit seine außergewöhnliche Effizienz bei der Brückenschlagung zwischen räumlicher Präzision und semantischem Reichtum für die Aufgabe der offenen Vokabular-Segmentierung.