Kollaborative Optimierung der Vision-Text-Repräsentation für die Offenwörtige Segmentierung

Vorab trainierte visuelle-linguistische Modelle, wie z.B. CLIP, werden zunehmend verwendet, um die anspruchsvolle Aufgabe der Offen-Vokabular-Segmentierung (OVS) zu lösen, wobei sie von ihrem gut ausgerichteten visuellen-tekstuellen Einbettungsraum profitieren. Typische Lösungen beinhalten entweder das Einfrieren von CLIP während des Trainings, um seine zero-shot-Fähigkeit einseitig aufrechtzuerhalten, oder das Feinjustieren des CLIP-Bilderkenners, um eine wahrnehmungsbasierte Empfindlichkeit für lokale Bereiche zu erreichen. Allerdings integrieren nur wenige Ansätze eine kollaborative Optimierung von Bild und Text. Aus diesem Grund schlagen wir den inhaltsabhängigen Transfer vor, um jede Texteinbettung durch Interaktion mit dem Eingangsbild anpassungsfähig zu verbessern. Dies bietet einen parameter-effizienten Weg zur Optimierung der Textrepräsentation. Darüber hinaus führen wir eine Strategie zur Repräsentationskompensation ein, bei der die ursprüngliche CLIP-V-Repräsentation als Kompensation berücksichtigt wird, um die zero-shot-Fähigkeit von CLIP aufrechtzuerhalten. Auf diese Weise werden die bildliche und textuelle Repräsentation von CLIP kollaborativ optimiert, was die Ausrichtung des visuellen-tekstuellen Merkmalsraums verbessert. Nach unserem Wissen sind wir die Ersten, die einen kollaborativen Mechanismus zur Optimierung von Bild und Text im Bereich OVS etablieren. Umfangreiche Experimente zeigen, dass unsere Methode überlegene Leistungen auf gängigen OVS-Benchmarks erzielt. Bei der offenen Vokabular-Semantischen Segmentierung übertreffen wir die bisher besten Methoden um +0,5 %, +2,3 %, +3,4 %, +0,4 % und +1,1 % mIoU auf den Datensätzen A-847, A-150, PC-459, PC-59 und PAS-20. Des Weiteren erreichen wir in einem panoptischen Szenario auf ADE20K eine Leistung von 27,1 PQ (Panoptic Quality), 73,5 SQ (Semantic Quality) und 32,9 RQ (Recognition Quality). Der Quellcode wird unter https://github.com/jiaosiyu1999/MAFT-Plus.git verfügbar sein.