HyperAIHyperAI

Command Palette

Search for a command to run...

SED: Ein einfacher Encoder-Decoder für offene Vokabulare semantische Segmentierung

Bin Xie Jiale Cao Jin Xie Fahad Shahbaz Khan Yanwei Pang

Zusammenfassung

Open-vocabulary-Semantische Segmentierung zielt darauf ab, Pixel in verschiedene semantische Kategorien aus einer offenen Menge von Klassen zu unterscheiden. Die meisten bestehenden Methoden nutzen vortrainierte Vision-Sprache-Modelle, wobei der Schlüssel darin besteht, ein bildweites Modell für eine pixelweite Segmentierungsaufgabe einzusetzen. In diesem Artikel stellen wir einen einfachen Encoder-Decoder namens SED für die Open-vocabulary-Semantische Segmentierung vor, der aus einer hierarchischen Encoder-basierten Kostenkarten-Generierung und einem schrittweisen Fusion-Decoder mit früher Kategorien-Ablehnung besteht. Die hierarchische Encoder-basierte Kostenkarten-Generierung verwendet einen hierarchischen Backbone anstelle eines einfachen Transformers, um eine pixelweise Bild-Text-Kostenkarte vorherzusagen. Im Vergleich zu einem einfachen Transformer erfasst der hierarchische Backbone besser lokale räumliche Informationen und weist eine lineare Rechenkomplexität bezüglich der Eingabegröße auf. Unser schrittweiser Fusion-Decoder verwendet eine top-down-Struktur, um die Kostenkarte und die Merkmalskarten verschiedener Backbone-Ebenen zur Segmentierung zu kombinieren. Um die Inferenzgeschwindigkeit zu beschleunigen, führen wir in dem Decoder ein Schema zur frühen Kategorien-Ablehnung ein, das viele nicht vorhandene Kategorien bereits in der frühen Ebene des Decoders ausschließt und damit eine Beschleunigung von bis zu 4,7-fach ermöglicht, ohne die Genauigkeit zu beeinträchtigen. Experimente wurden auf mehreren Open-vocabulary-Semantischen Segmentierungsdatenbanken durchgeführt, die die Wirksamkeit unserer SED-Methode belegen. Bei Verwendung von ConvNeXt-B erreicht unsere SED-Methode auf ADE20K mit 150 Kategorien eine mIoU-Score von 31,6 % bei einer Verarbeitungszeit von 82 Millisekunden pro Bild auf einer einzigen A6000-GPU. Wir werden den Code unter \url{https://github.com/xb534/SED.git} veröffentlichen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp