HyperAIHyperAI
vor 2 Monaten

Offene-Vokabular-Universelle Bildsegmentierung mit MaskCLIP

Zheng Ding; Jieke Wang; Zhuowen Tu
Offene-Vokabular-Universelle Bildsegmentierung mit MaskCLIP
Abstract

In dieser Arbeit befassen wir uns mit einer neuen Aufgabe im Bereich der Computer Vision, nämlich der offenvokabulären universellen Bildsegmentierung, die darauf abzielt, in Echtzeit semantische/instanzbasierte/panoptische Segmentierung (Hintergrundsemantik + Vordergrundinstanzsegmentierung) für beliebige Kategorien auf Textbeschreibungen basierend durchzuführen. Zunächst bauen wir eine Baseline-Methode auf, indem wir vortrainierte CLIP-Modelle ohne Feinabstimmung oder Destillierung direkt verwenden. Anschließend entwickeln wir MaskCLIP, einen transformerbasierten Ansatz mit einem MaskCLIP-Visuellen Encoder, der ein reiner Encoder-Modul ist und Maskentoken nahtlos in ein vortrainiertes ViT CLIP-Modell integriert, um semantische/instanzbasierte Segmentierung und Klassifikationsvorhersage durchzuführen. MaskCLIP lernt, prätrainierte partielle/dichte CLIP-Features innerhalb des MaskCLIP-Visuellen Encoders effizient und effektiv zu nutzen, wodurch der zeitaufwendige Trainingsprozess von Schüler-Lehrer-Modellen vermieden wird. MaskCLIP übertrifft vorherige Methoden bei der semantischen/instanzbasierten/panoptischen Segmentierung auf den Datensätzen ADE20K und PASCAL. Wir zeigen qualitative Illustrationen für MaskCLIP mit online benutzerdefinierten Kategorien. Projektwebsite: https://maskclip.github.io.