HyperAIHyperAI
vor 2 Monaten

Hochwertige Maskeinstellung ist für die Segmentierung mit offenen Vokabularien entscheidend.

Quan-Sheng Zeng; Yunheng Li; Daquan Zhou; Guanbin Li; Qibin Hou; Ming-Ming Cheng
Hochwertige Maskeinstellung ist für die Segmentierung mit offenen Vokabularien entscheidend.
Abstract

Die offene Vokabular-Bildsegmentierung wurde durch die Synergie zwischen Maskengeneratoren und visuellen Sprachmodellen wie dem kontrastiven Sprachbildvortraining (Contrastive Language-Image Pre-training, CLIP) weiterentwickelt. Frühere Ansätze konzentrierten sich darauf, Masken zu generieren, während sie Maskenmerkmale mit Texteinbettungen während des Trainings ausrichteten. In dieser Arbeit beobachten wir, dass das Verlassen auf generierte, niedriger Qualität besitze Masken die Ausrichtung von Vision und Sprache in regionalen Darstellungen schwächen kann. Dies motiviert uns, einen neuen Feinjustierungsrahmen namens MaskCLIP++ vorzustellen, der anstelle von generierten Masken wahrheitsgemäße Masken verwendet, um die Maske-Klassifikationsfähigkeit von CLIP zu verbessern. Aufgrund der begrenzten Vielfalt von Bildsegmentierungsdatensätzen mit Maske-Annotationen schlagen wir vor, während der Feinjustierung ein Konsistenzausrichtungsprinzip zu integrieren, das eine kategoriale Verzerrung gegenüber dem Feinjustierungsdatensatz mildert. Nach kostengünstiger Feinjustierung verbessert MaskCLIP++ die Maske-Klassifikationsleistung erheblich in mehrdomänigen Datensätzen. In Kombination mit dem Maskengenerator aus früheren top-modernen maskebasierten offenen Vokabular-Segmentierungsverfahren erreichen wir Leistungssteigerungen von +1,7, +2,3, +2,1, +3,1 und +0,3 mIoU in den Datensätzen A-847, PC-459, A-150, PC-59 und PAS-20 jeweils. Der Quellcode ist unter https://github.com/HVision-NKU/MaskCLIPpp verfügbar.

Hochwertige Maskeinstellung ist für die Segmentierung mit offenen Vokabularien entscheidend. | Neueste Forschungsarbeiten | HyperAI