vor 2 Monaten

Eine einfache Baseline für die offene Vokabular-Semantische Segmentierung mit vortrainiertem visuellen-sprachlichen Modell

Mengde Xu; Zheng Zhang; Fangyun Wei; Yutong Lin; Yue Cao; Han Hu; Xiang Bai

Abstract

Kürzlich haben offene Vokabularbildklassifizierungen durch visuelle Sprachvorverarbeitung bemerkenswerte Erfolge erzielt, wobei das Modell in der Lage ist, beliebige Kategorien zu klassifizieren, ohne zusätzliche annotierte Bilder dieser Kategorie gesehen zu haben. Es ist jedoch noch unklar, wie man die offene Vokabularerkennung effektiv auf umfassendere visuelle Probleme anwenden kann. In diesem Artikel wird eine offene Vokabularsemantische Segmentierung auf einem vorverarbeiteten visuellen Sprachmodell (off-the-shelf pre-trained vision-language model), nämlich CLIP, aufgebaut. Semantische Segmentierung und das CLIP-Modell arbeiten jedoch auf unterschiedlichen visuellen Granularitätsstufen: Semantische Segmentierung verarbeitet Pixel, während CLIP Bilder verarbeitet. Um die Diskrepanz in der Verarbeitungsgranularität zu beheben, lehnen wir den weit verbreiteten einstufigen FCN-basierten Rahmen ab und befürworten einen zweistufigen semantischen Segmentierungsrahmen. Dabei extrahiert die erste Stufe allgemeine Maskenvorschläge und die zweite Stufe nutzt ein bildbasiertes CLIP-Modell, um eine offene Vokabularklassifizierung auf den im ersten Stadium generierten maskierten Bildausschnitten durchzuführen. Unsere experimentellen Ergebnisse zeigen, dass dieser zweistufige Rahmen bei Ausbildung nur mit dem COCO Stuff-Datensatz und Evaluierung auf anderen Datensätzen ohne Feinabstimmung eine überlegene Leistung gegenüber FCN erzielen kann. Darüber hinaus übertrifft dieses einfache Framework auch die bisherigen Standesder Technik von Null-Shot-Semantischer Segmentierung um einen großen Abstand: +29,5 hIoU auf dem Pascal VOC 2012-Datensatz und +8,9 hIoU auf dem COCO Stuff-Datensatz. Dank seiner Einfachheit und seiner starken Leistung hoffen wir, dass dieses Framework als Baseline für zukünftige Forschungen dienen kann. Der Code ist öffentlich zugänglich unter~\url{https://github.com/MendelXu/zsseg.baseline}.