Segmentation Sémantique Zéro-Tir

Les modèles de segmentation sémantique sont limités dans leur capacité à s'adapter à un grand nombre de classes d'objets. Dans cet article, nous introduisons la nouvelle tâche de segmentation sémantique à zéro exemple : l'apprentissage de classifieurs par pixel pour des catégories d'objets jamais vues sans exemples d'entraînement. À cette fin, nous présentons une architecture novatrice, ZS3Net, qui combine un modèle de segmentation visuelle profonde avec une approche permettant de générer des représentations visuelles à partir d'embeddings lexicaux sémantiques. De cette manière, ZS3Net aborde les tâches de classification par pixel où des catégories vues et non vues sont rencontrées lors des tests (appelée « généralisée » classification à zéro exemple). Les performances sont encore améliorées par une étape d'auto-apprentissage qui repose sur l'étiquetage automatique pseudo-étiquettes des pixels appartenant aux classes non vues. Sur deux ensembles de données standard en segmentation, Pascal-VOC et Pascal-Context, nous proposons des benchmarks à zéro exemple et établissons des lignes directrices compétitives. Pour les scènes complexes comme celles du jeu de données Pascal-Context, nous étendons notre approche en utilisant une encodage contextuel graphique pour pleinement exploiter les a priori spatiaux issus des cartes de segmentation par classe.