HyperAIHyperAI
vor 17 Tagen

MasQCLIP für offene-Vokabular-Universelle Bildsegmentierung

{Zhuowen Tu, Zheng Ding, Tianyi Xiong, Xin Xu}
MasQCLIP für offene-Vokabular-Universelle Bildsegmentierung
Abstract

Wir präsentieren eine neue Methode für die offene-Vokabular-Universalsegmentierung von Bildern, die in einem einheitlichen Rahmen sowohl Instanz-, Semantik- als auch Panoptic-Segmentierung durchführen kann. Unser Ansatz, namens MasQCLIP, integriert sich nahtlos in ein vortrainiertes CLIP-Modell, indem er dessen dichte Merkmale nutzt, wodurch ein umfangreicher Parameter-Training entfällt. MasQCLIP hebt zwei neue Aspekte hervor, wenn ein Bildsegmentierungsverfahren auf Basis eines CLIP-Modells entwickelt wird: 1) ein Student-Teacher-Modul zur Behandlung von Masken für neue (nicht gesehene) Klassen durch das Extrahieren von Informationen aus den Basis-(gesehenen) Klassen; 2) ein Feinabstimmungsprozess zur Aktualisierung der Modellparameter für die Abfragen Q innerhalb des CLIP-Modells. Dank dieser beiden einfachen und intuitiven Konzepte erreicht MasQCLIP state-of-the-art-Leistungen mit einer erheblichen Verbesserung gegenüber konkurrierenden Methoden bei allen drei Aufgaben – einschließlich offener-Vokabular-Instanz-, Semantik- und Panoptic-Segmentierung. Die Projektseite befindet sich unter https://masqclip.github.io/.