Offene-Vokabular-Universelle Bildsegmentierung mit MaskCLIP

In dieser Arbeit befassen wir uns mit einer neuen Aufgabe im Bereich der Computer Vision, nämlich der offenvokabulären universellen Bildsegmentierung, die darauf abzielt, in Echtzeit semantische/instanzbasierte/panoptische Segmentierung (Hintergrundsemantik + Vordergrundinstanzsegmentierung) für beliebige Kategorien auf Textbeschreibungen basierend durchzuführen. Zunächst bauen wir eine Baseline-Methode auf, indem wir vortrainierte CLIP-Modelle ohne Feinabstimmung oder Destillierung direkt verwenden. Anschließend entwickeln wir MaskCLIP, einen transformerbasierten Ansatz mit einem MaskCLIP-Visuellen Encoder, der ein reiner Encoder-Modul ist und Maskentoken nahtlos in ein vortrainiertes ViT CLIP-Modell integriert, um semantische/instanzbasierte Segmentierung und Klassifikationsvorhersage durchzuführen. MaskCLIP lernt, prätrainierte partielle/dichte CLIP-Features innerhalb des MaskCLIP-Visuellen Encoders effizient und effektiv zu nutzen, wodurch der zeitaufwendige Trainingsprozess von Schüler-Lehrer-Modellen vermieden wird. MaskCLIP übertrifft vorherige Methoden bei der semantischen/instanzbasierten/panoptischen Segmentierung auf den Datensätzen ADE20K und PASCAL. Wir zeigen qualitative Illustrationen für MaskCLIP mit online benutzerdefinierten Kategorien. Projektwebsite: https://maskclip.github.io.