Exploiter les positifs cachés pour la segmentation sémantique non supervisée

La demande croissante en main-d’œuvre pour annoter des pixels au niveau des pixels a conduit à l’émergence de la segmentation sémantique non supervisée. Bien que les travaux récents utilisant un modèle fondamental basé sur le vision transformer (ViT) affichent des performances exceptionnelles, ils négligent encore l’orientation d’entraînement spécifique à la tâche ainsi que la cohérence sémantique locale. Pour relever ces défis, nous exploitons l’apprentissage contrastif en mettant en évidence des positifs cachés afin d’apprendre des relations sémantiques riches et de garantir la cohérence sémantique au sein des régions locales. Plus précisément, nous identifions deux types de positifs globaux cachés pour chaque ancre : des positifs indépendants de la tâche, basés sur les similarités de caractéristiques définies par un modèle pré-entraîné fixe, et des positifs spécifiques à la tâche, fondés sur les similarités définies par un segmenteur en entraînement. L’augmentation progressive de l’apport de ces derniers incite le modèle à capturer des caractéristiques sémantiques spécifiques à la tâche. Par ailleurs, nous introduisons une stratégie de propagation de gradients pour apprendre la cohérence sémantique entre patches adjacents, sous l’hypothèse fondamentale selon laquelle des patches voisins ont une forte probabilité de partager la même sémantique. Plus précisément, nous ajoutons une perte qui se propage aux positifs cachés locaux, c’est-à-dire aux patches voisins fortement similaires sur le plan sémantique, proportionnellement à des scores de similarité prédéfinis. Grâce à ces schémas d’entraînement, la méthode proposée atteint de nouveaux résultats d’état de l’art (SOTA) sur les jeux de données COCO-stuff, Cityscapes et Potsdam-3. Le code source est disponible à l’adresse suivante : https://github.com/hynnsk/HP.