MVP-SEG: Multi-View Prompt Learning für Open-Vocabulary Semantic Segmentation

CLIP (Contrastive Language-Image Pretraining) ist für die offene-Vokabular-Nullschritt-Bildklassifikation gut entwickelt, während seine Anwendungen in pixelgenauen Aufgaben weniger untersucht wurden, wobei die meisten Ansätze CLIP-Features ohne gezielte Anpassung direkt übernehmen. In dieser Arbeit zeigen wir zunächst die Notwendigkeit einer Anpassung von Bild-pixel-orientierten CLIP-Features und stellen anschließend Multi-View Prompt Learning (MVP-SEG) als eine effektive Lösung vor, um eine Bild-pixel-angepasste Darstellung zu erreichen und offene-Vokabular-Semantische Segmentierung zu lösen. Konkret lernt MVP-SEG gezielt mehrere Prompts durch unsere Orthogonale-Beschränkungsverlustfunktion (OCLoss), wodurch jeder Prompt dazu angeregt wird, verschiedene Objektteile in den CLIP-Features zu erschließen. Die kooperativen Segmentierungsmasken, die von allen Prompts generiert werden, fördern eine verbesserte Segmentierung. Zudem führt MVP-SEG eine Global Prompt Refining (GPR)-Strategie ein, um klassenweise Segmentierungsrauschen weiter zu reduzieren. Experimente zeigen, dass die aus gesehenen Kategorien gelernten Mehransicht-Prompts eine starke Generalisierungsfähigkeit für unbekannte Kategorien aufweisen, und MVP-SEG+, das die Wissensübertragungsphase integriert, auf mehreren Benchmarks signifikant bessere Ergebnisse als vorherige Methoden erzielt. Darüber hinaus bestätigen qualitative Ergebnisse, dass MVP-SEG tatsächlich eine verbesserte Fokussierung auf verschiedene lokale Objektteile ermöglicht.