HyperAIHyperAI

Command Palette

Search for a command to run...

ProxyCLIP: Proxy-Aufmerksamkeit verbessert CLIP für die Segmentierung mit offenen Vokabularen

Mengcheng Lan; Chaofeng Chen; Yiping Ke; Xinjiang Wang; Litong Feng; Wayne Zhang

Zusammenfassung

Die offene Vokabular-Semantische Segmentierung erfordert Modelle, die visuelle Repräsentationen effektiv mit semantischen Labels eines offenen Vokabulars integrieren können. Obwohl Kontrastive Sprach-Bild-Vortrainingsmodelle (CLIP) darin hervorragen, visuelle Konzepte aus Text zu erkennen, haben sie oft Schwierigkeiten mit der Segmentkohärenz aufgrund ihrer begrenzten Lokalisierungsfähigkeit. Im Gegensatz dazu zeichnen sich Vision Foundation Models (VFMs) durch die Fähigkeit aus, räumlich konsistente lokale visuelle Repräsentationen zu erwerben, fallen jedoch im semantischen Verständnis zurück. In dieser Arbeit wird ProxyCLIP vorgestellt, ein innovativer Rahmen, der darauf abzielt, die Stärken von CLIP und VFMs zu harmonisieren und so eine verbesserte offene Vokabular-Semantische Segmentierung zu ermöglichen. ProxyCLIP nutzt die räumliche Merkmalskorrespondenz von VFMs als Form des Proxy-Attentionsmechanismus, um CLIP zu erweitern und somit die robuste lokale Konsistenz der VFMs zu übernehmen, während es gleichzeitig die außergewöhnliche Null-Shot-Transfer-Fähigkeit von CLIP beibehält. Wir schlagen eine adaptive Normalisierungs- und Maskierungsstrategie vor, um den Proxy-Attention-Mechanismus von VFMs zu erhalten, was eine Anpassung an verschiedene VFMs ermöglicht. Bemerkenswerterweise verbessert ProxyCLIP als trainingsfreier Ansatz den durchschnittlichen mittleren Schnittmenge über Vereinigung (mIoU) auf acht Benchmarks signifikant von 40,3 auf 44,4 und zeigt damit seine außergewöhnliche Effizienz bei der Brückenschlagung zwischen räumlicher Präzision und semantischem Reichtum für die Aufgabe der offenen Vokabular-Segmentierung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
ProxyCLIP: Proxy-Aufmerksamkeit verbessert CLIP für die Segmentierung mit offenen Vokabularen | Paper | HyperAI