HyperAIHyperAI
vor 17 Tagen

SED: Ein einfacher Encoder-Decoder für offene Vokabulare semantische Segmentierung

Bin Xie, Jiale Cao, Jin Xie, Fahad Shahbaz Khan, Yanwei Pang
SED: Ein einfacher Encoder-Decoder für offene Vokabulare semantische Segmentierung
Abstract

Open-vocabulary-Semantische Segmentierung zielt darauf ab, Pixel in verschiedene semantische Kategorien aus einer offenen Menge von Klassen zu unterscheiden. Die meisten bestehenden Methoden nutzen vortrainierte Vision-Sprache-Modelle, wobei der Schlüssel darin besteht, ein bildweites Modell für eine pixelweite Segmentierungsaufgabe einzusetzen. In diesem Artikel stellen wir einen einfachen Encoder-Decoder namens SED für die Open-vocabulary-Semantische Segmentierung vor, der aus einer hierarchischen Encoder-basierten Kostenkarten-Generierung und einem schrittweisen Fusion-Decoder mit früher Kategorien-Ablehnung besteht. Die hierarchische Encoder-basierte Kostenkarten-Generierung verwendet einen hierarchischen Backbone anstelle eines einfachen Transformers, um eine pixelweise Bild-Text-Kostenkarte vorherzusagen. Im Vergleich zu einem einfachen Transformer erfasst der hierarchische Backbone besser lokale räumliche Informationen und weist eine lineare Rechenkomplexität bezüglich der Eingabegröße auf. Unser schrittweiser Fusion-Decoder verwendet eine top-down-Struktur, um die Kostenkarte und die Merkmalskarten verschiedener Backbone-Ebenen zur Segmentierung zu kombinieren. Um die Inferenzgeschwindigkeit zu beschleunigen, führen wir in dem Decoder ein Schema zur frühen Kategorien-Ablehnung ein, das viele nicht vorhandene Kategorien bereits in der frühen Ebene des Decoders ausschließt und damit eine Beschleunigung von bis zu 4,7-fach ermöglicht, ohne die Genauigkeit zu beeinträchtigen. Experimente wurden auf mehreren Open-vocabulary-Semantischen Segmentierungsdatenbanken durchgeführt, die die Wirksamkeit unserer SED-Methode belegen. Bei Verwendung von ConvNeXt-B erreicht unsere SED-Methode auf ADE20K mit 150 Kategorien eine mIoU-Score von 31,6 % bei einer Verarbeitungszeit von 82 Millisekunden pro Bild auf einer einzigen A6000-GPU. Wir werden den Code unter \url{https://github.com/xb534/SED.git} veröffentlichen.