Offen-vokabuläre Segmentierung mit semantikgestützter Kalibrierung

Diese Arbeit untersucht die Open-Vocabulary-Segmentation (OVS) durch die Kalibrierung des in-Vocabulary- und domainverzerrten Embedding-Raums mittels des generalisierten kontextuellen Vorwissens von CLIP. Als Kernstück des Open-Vocabulary-Verständnisses ist die Ausrichtung visueller Inhalte mit der Semantik unbeschränkter Texte zum Engpass dieser Forschungsrichtung geworden. Um dieser Herausforderung zu begegnen, schlagen jüngere Arbeiten vor, CLIP als zusätzlichen Klassifikator zu nutzen und die Modellvorhersagen mit den Klassifikationsergebnissen von CLIP zu aggregieren. Trotz ihrer bemerkenswerten Fortschritte bleiben die Leistungen von OVS-Methoden in relevanten Szenarien im Vergleich zu überwachten Ansätzen weiterhin unzureichend. Wir weisen dies auf die in-Vocabulary-Embeddings und die domainverzerrten Vorhersagen von CLIP zurück. Dementsprechend präsentieren wir ein Semantic-assisted CAlibration Network (SCAN). In SCAN integrieren wir das generalisierte semantische Vorwissen von CLIP in die Proposal-Embeddings, um eine Kollapsierung auf bekannte Kategorien zu vermeiden. Zusätzlich wird eine kontextuelle Shift-Strategie angewendet, um den Mangel an globaler Kontextinformation und die unnatürliche Hintergrundstörung zu mildern. Durch diese Konzepte erreicht SCAN state-of-the-art-Leistungen auf allen gängigen Benchmarks für Open-Vocabulary-Segmentation. Darüber hinaus befassen wir uns auch mit dem Problem bestehender Evaluierungssysteme, die semantische Duplikationen zwischen Kategorien ignorieren, und schlagen ein neues Maß namens Semantic-Guided IoU (SG-IoU) vor.