Segmentation à vocabulaire ouvert avec calibration assistée par sémantique

Cet article étudie la segmentation à vocabulaire ouvert (OVS) en calibrant l’espace d’embedding intravocabulaire et biaisé par domaine grâce au prior contextuel généralisé de CLIP. En tant que pilier fondamental de la compréhension à vocabulaire ouvert, l’alignement entre le contenu visuel et la sémantique du texte illimité est devenu le goulot d’étranglement de ce domaine. Pour relever ce défi, les travaux récents proposent d’utiliser CLIP comme classificateur supplémentaire et d’agréger les prédictions du modèle avec les résultats de classification de CLIP. Malgré leurs progrès notables, les performances des méthodes OVS dans des scénarios pertinents restent insatisfaisantes par rapport à leurs homologues supervisées. Nous attribuons cette limitation à l’embedding intravocabulaire et aux prédictions de CLIP biaisées par domaine. À cette fin, nous proposons un réseau de calibration assistée par sémantique, nommé SCAN. Dans SCAN, nous intégrons le prior sémantique généralisé de CLIP dans les embeddings des propositions afin d’éviter l’effondrement vers les catégories connues. En outre, une stratégie de décalage contextuel est appliquée pour atténuer le manque de contexte global et le bruit de fond anormal. Grâce à ces innovations, SCAN atteint des performances de pointe sur toutes les principales benchmarks de segmentation à vocabulaire ouvert. En outre, nous mettons également l’accent sur un problème de l’évaluation actuelle, qui ignore la duplication sémantique entre catégories, et proposons une nouvelle métrique appelée IoU guidée par la sémantique (SG-IoU).