HyperAIHyperAI

Command Palette

Search for a command to run...

Eine einfache Baseline für die offene Vokabular-Semantische Segmentierung mit vortrainiertem visuellen-sprachlichen Modell

Mengde Xu Zheng Zhang Fangyun Wei Yutong Lin Yue Cao Han Hu Xiang Bai

Zusammenfassung

Kürzlich haben offene Vokabularbildklassifizierungen durch visuelle Sprachvorverarbeitung bemerkenswerte Erfolge erzielt, wobei das Modell in der Lage ist, beliebige Kategorien zu klassifizieren, ohne zusätzliche annotierte Bilder dieser Kategorie gesehen zu haben. Es ist jedoch noch unklar, wie man die offene Vokabularerkennung effektiv auf umfassendere visuelle Probleme anwenden kann. In diesem Artikel wird eine offene Vokabularsemantische Segmentierung auf einem vorverarbeiteten visuellen Sprachmodell (off-the-shelf pre-trained vision-language model), nämlich CLIP, aufgebaut. Semantische Segmentierung und das CLIP-Modell arbeiten jedoch auf unterschiedlichen visuellen Granularitätsstufen: Semantische Segmentierung verarbeitet Pixel, während CLIP Bilder verarbeitet. Um die Diskrepanz in der Verarbeitungsgranularität zu beheben, lehnen wir den weit verbreiteten einstufigen FCN-basierten Rahmen ab und befürworten einen zweistufigen semantischen Segmentierungsrahmen. Dabei extrahiert die erste Stufe allgemeine Maskenvorschläge und die zweite Stufe nutzt ein bildbasiertes CLIP-Modell, um eine offene Vokabularklassifizierung auf den im ersten Stadium generierten maskierten Bildausschnitten durchzuführen. Unsere experimentellen Ergebnisse zeigen, dass dieser zweistufige Rahmen bei Ausbildung nur mit dem COCO Stuff-Datensatz und Evaluierung auf anderen Datensätzen ohne Feinabstimmung eine überlegene Leistung gegenüber FCN erzielen kann. Darüber hinaus übertrifft dieses einfache Framework auch die bisherigen Standesder Technik von Null-Shot-Semantischer Segmentierung um einen großen Abstand: +29,5 hIoU auf dem Pascal VOC 2012-Datensatz und +8,9 hIoU auf dem COCO Stuff-Datensatz. Dank seiner Einfachheit und seiner starken Leistung hoffen wir, dass dieses Framework als Baseline für zukünftige Forschungen dienen kann. Der Code ist öffentlich zugänglich unter~\url{https://github.com/MendelXu/zsseg.baseline}.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp