SIGN : Réseau génératif intégrant des informations spatiales pour la segmentation sémantique zéro-shot généralisée
Contrairement à la classification zéro-shot classique, la segmentation sémantique zéro-shot prédit une étiquette de classe au niveau des pixels plutôt qu’au niveau de l’image. En abordant les problèmes de segmentation sémantique zéro-shot, la nécessité de prédictions au niveau des pixels tenant compte du contexte spatial nous a amenés à intégrer des informations spatiales à l’aide d’un encodage de position. Nous améliorons l’encodage de position standard en introduisant le concept d’encodage de position relative, qui intègre l’information spatiale au niveau des caractéristiques et permet de traiter des tailles d’image arbitraires. Par ailleurs, bien que l’auto-entraînement soit largement utilisé en segmentation sémantique zéro-shot pour générer des pseudo-étiquettes, nous proposons une nouvelle stratégie d’auto-entraînement inspirée de la distillation de connaissances, appelée Auto-entraînement avec recuit (Annealed Self-Training), capable d’attribuer automatiquement une importance différente aux pseudo-étiquettes afin d’améliorer les performances. Nous étudions de manière systématique l’encodage de position relative et l’auto-entraînement avec recuit au travers d’une évaluation expérimentale complète, et nos résultats empiriques confirment l’efficacité de notre méthode sur trois jeux de données de référence.