OTSeg: Multi-prompt Sinkhorn-Attention für zero-shot semantische Segmentierung

Der jüngste Erfolg von CLIP hat vielversprechende Ergebnisse bei der zero-shot semantischen Segmentierung gezeigt, indem multimodales Wissen auf die pixelgenaue Klassifikation übertragen wurde. Dennoch weisen bestehende Ansätze weiterhin Einschränkungen auf, wenn es darum geht, das vortrainierte CLIP-Wissen effektiv zu nutzen, um Text-Embeddings eng mit Pixel-Embeddings zu alignen. Um dieses Problem anzugehen, stellen wir OTSeg vor – einen neuartigen multimodalen Aufmerksamkeitsmechanismus, der darauf abzielt, das Potenzial mehrerer Text-Prompts zur Anpassung an die entsprechenden Pixel-Embeddings zu verbessern. Zunächst führen wir Multi-Prompts Sinkhorn (MPS) basierend auf dem Optimal Transport (OT)-Algorithmus ein, welcher mehrere Text-Prompts dazu führt, gezielt verschiedene semantische Merkmale innerhalb der Bildpixel zu fokussieren. Darüber hinaus, inspiriert durch den Erfolg von Sinkformers in einmodalen Szenarien, erweitern wir MPS zu Multi-Prompts Sinkhorn Attention (MPSA), welcher effektiv die Cross-Attention-Mechanismen innerhalb eines Transformer-Frameworks in multimodalen Kontexten ersetzt. Durch umfangreiche Experimente zeigen wir, dass OTSeg state-of-the-art (SOTA) Leistung erzielt und signifikante Verbesserungen bei zero-shot semantischen Segmentierungsaufgaben (ZS3) auf drei Standard-Datensätzen erreicht.