vor 17 Tagen

SegCLIP: Patch-Aggregation mit lernbaren Zentren für offene Wortfeld-Semantische Segmentierung

Huaishao Luo, Junwei Bao, Youzheng Wu, Xiaodong He, Tianrui Li

Abstract

Kürzlich haben contrastive Sprache-Bild-Vortrainierungsansätze, wie beispielsweise CLIP, vielversprechende Ergebnisse bei verschiedenen Downstream-Aufgaben gezeigt. Durch das Lernen aus einer großen Menge an Text-Bild-Daten kann das vortrainierte Modell reichhaltige visuelle Konzepte für Bilder erfassen. Die Übertragung des erlernten visuellen Wissens auf die offene-Vokabular-Segmentierung bleibt jedoch weiterhin wenig erforscht. In diesem Artikel stellen wir ein auf CLIP basierendes Modell namens SegCLIP für das Thema offene-Vokabular-Segmentierung in einer annotierungsfreien Weise vor. SegCLIP erreicht die Segmentierung basierend auf einem Vision Transformer (ViT), wobei der zentrale Ansatz darin besteht, durch das Training auf Text-Bild-Paaren Patch-Regionen mit lernbaren Zentren den semantischen Regionen zuzuordnen. Diese Zuordnungsoperation kann semantische Gruppen dynamisch erfassen und zur Generierung der endgültigen Segmentierungsergebnisse genutzt werden. Darüber hinaus schlagen wir eine Rekonstruktionsverlustfunktion für maskierte Patch-Regionen sowie einen auf Superpixeln basierenden KL-Verlust mit Pseudolabels vor, um die visuelle Repräsentation weiter zu verbessern. Experimentelle Ergebnisse zeigen, dass unser Modell eine vergleichbare oder überlegene Segmentiergenauigkeit auf den Datensätzen PASCAL VOC 2012 (+0,3% mIoU), PASCAL Context (+2,3% mIoU) und COCO (+2,2% mIoU) im Vergleich zu Baselines erreicht. Den Quellcode stellen wir unter https://github.com/ArrowLuo/SegCLIP zur Verfügung.