HyperAIHyperAI

Command Palette

Search for a command to run...

CAT-Seg: Cost Aggregation für open-vocabulary semantische Segmentierung

Seokju Cho Heeseong Shin Sunghwan Hong Anurag Arnab Paul Hongsuck Seo Seungryong Kim

Zusammenfassung

Die offene-vokabulare semantische Segmentierung stellt die Herausforderung dar, jeden Pixel eines Bildes anhand einer breiten Palette an Textbeschreibungen zu klassifizieren. In dieser Arbeit stellen wir einen neuartigen kostengestützten Ansatz vor, um visuell-sprachliche Grundmodelle, insbesondere CLIP, für die anspruchsvolle Aufgabe der semantischen Segmentierung anzupassen. Durch die Aggregation der Kosinus-Ähnlichkeitsscores – also des Kostenvolumens zwischen Bild- und Text-Embeddings – passt unsere Methode CLIP effektiv sowohl für gesehene als auch für nicht gesehene Klassen an, indem sie die Encoder durch Feinabstimmung anpasst und somit die Herausforderungen anspricht, die bestehende Methoden bei der Behandlung bisher unbekannter Klassen begegnen. Auf dieser Grundlage untersuchen wir Methoden zur effektiven Aggregation des Kostenvolumens unter Berücksichtigung seiner multimodalen Natur, die aus der Beziehung zwischen Bild- und Text-Embeddings resultiert. Zudem analysieren wir verschiedene Ansätze zur effizienten Feinabstimmung von CLIP.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
CAT-Seg: Cost Aggregation für open-vocabulary semantische Segmentierung | Paper | HyperAI