HyperAIHyperAI

Command Palette

Search for a command to run...

Sprachgesteuerte semantische Segmentierung

Boyi Li Kilian Q. Weinberger Serge Belongie Vladlen Koltun René Ranftl

Zusammenfassung

Wir präsentieren LSeg, ein neuartiges Modell für sprachgesteuerte semantische Bildsegmentierung. LSeg verwendet einen Textencoder, um Embeddings beschreibender Eingabelabel (z. B. „Gras“ oder „Gebäude“) zu berechnen, sowie einen auf Transformers basierenden Bildencoder, der dichte pro-Pixel-Embeddings des Eingabebildes erzeugt. Der Bildencoder wird mit einem kontrastiven Zieltrainingsverfahren trainiert, um die Pixel-Embeddings mit den Text-Embeddings der entsprechenden semantischen Klassen zu alignen. Die Text-Embeddings bieten eine flexible Label-Repräsentation, bei der semantisch ähnliche Labels ähnliche Regionen im Embedding-Raum abbilden (z. B. „Katze“ und „fellig“). Dadurch kann LSeg bei der Testzeit auf bisher nicht gesehene Kategorien generalisieren, ohne neu zu trainieren oder sogar nur ein einzelnes zusätzliches Trainingsbeispiel zu benötigen. Wir zeigen, dass unser Ansatz eine hochkonkurrenzfähige Zero-Shot-Leistung im Vergleich zu bestehenden Zero- und Few-Shot-Segmentierungsmethoden erzielt und sogar die Genauigkeit traditioneller Segmentierungsalgorithmen erreicht, wenn ein festes Label-Set bereitgestellt wird. Der Quellcode und eine Demo sind unter https://github.com/isl-org/lang-seg verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Sprachgesteuerte semantische Segmentierung | Paper | HyperAI