HyperAIHyperAI
vor 13 Tagen

Sprachgesteuerte semantische Segmentierung

Boyi Li, Kilian Q. Weinberger, Serge Belongie, Vladlen Koltun, René Ranftl
Sprachgesteuerte semantische Segmentierung
Abstract

Wir präsentieren LSeg, ein neuartiges Modell für sprachgesteuerte semantische Bildsegmentierung. LSeg verwendet einen Textencoder, um Embeddings beschreibender Eingabelabel (z. B. „Gras“ oder „Gebäude“) zu berechnen, sowie einen auf Transformers basierenden Bildencoder, der dichte pro-Pixel-Embeddings des Eingabebildes erzeugt. Der Bildencoder wird mit einem kontrastiven Zieltrainingsverfahren trainiert, um die Pixel-Embeddings mit den Text-Embeddings der entsprechenden semantischen Klassen zu alignen. Die Text-Embeddings bieten eine flexible Label-Repräsentation, bei der semantisch ähnliche Labels ähnliche Regionen im Embedding-Raum abbilden (z. B. „Katze“ und „fellig“). Dadurch kann LSeg bei der Testzeit auf bisher nicht gesehene Kategorien generalisieren, ohne neu zu trainieren oder sogar nur ein einzelnes zusätzliches Trainingsbeispiel zu benötigen. Wir zeigen, dass unser Ansatz eine hochkonkurrenzfähige Zero-Shot-Leistung im Vergleich zu bestehenden Zero- und Few-Shot-Segmentierungsmethoden erzielt und sogar die Genauigkeit traditioneller Segmentierungsalgorithmen erreicht, wenn ein festes Label-Set bereitgestellt wird. Der Quellcode und eine Demo sind unter https://github.com/isl-org/lang-seg verfügbar.

Sprachgesteuerte semantische Segmentierung | Neueste Forschungsarbeiten | HyperAI