HyperAIHyperAI

Command Palette

Search for a command to run...

OTSeg: Multi-prompt Sinkhorn-Attention für zero-shot semantische Segmentierung

Kwanyoung Kim Yujin Oh Jong Chul Ye

Zusammenfassung

Der jüngste Erfolg von CLIP hat vielversprechende Ergebnisse bei der zero-shot semantischen Segmentierung gezeigt, indem multimodales Wissen auf die pixelgenaue Klassifikation übertragen wurde. Dennoch weisen bestehende Ansätze weiterhin Einschränkungen auf, wenn es darum geht, das vortrainierte CLIP-Wissen effektiv zu nutzen, um Text-Embeddings eng mit Pixel-Embeddings zu alignen. Um dieses Problem anzugehen, stellen wir OTSeg vor – einen neuartigen multimodalen Aufmerksamkeitsmechanismus, der darauf abzielt, das Potenzial mehrerer Text-Prompts zur Anpassung an die entsprechenden Pixel-Embeddings zu verbessern. Zunächst führen wir Multi-Prompts Sinkhorn (MPS) basierend auf dem Optimal Transport (OT)-Algorithmus ein, welcher mehrere Text-Prompts dazu führt, gezielt verschiedene semantische Merkmale innerhalb der Bildpixel zu fokussieren. Darüber hinaus, inspiriert durch den Erfolg von Sinkformers in einmodalen Szenarien, erweitern wir MPS zu Multi-Prompts Sinkhorn Attention (MPSA), welcher effektiv die Cross-Attention-Mechanismen innerhalb eines Transformer-Frameworks in multimodalen Kontexten ersetzt. Durch umfangreiche Experimente zeigen wir, dass OTSeg state-of-the-art (SOTA) Leistung erzielt und signifikante Verbesserungen bei zero-shot semantischen Segmentierungsaufgaben (ZS3) auf drei Standard-Datensätzen erreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp