Découplage de la segmentation sémantique zéro-shot

La segmentation sémantique zéro-shot (ZS3) vise à segmenter des catégories nouvelles n’ayant pas été observées durant l’entraînement. Les travaux existants formuleraient la ZS3 comme un problème de classification zéro-shot au niveau des pixels, transférant les connaissances sémantiques des classes vues vers les classes invisibles grâce à des modèles linguistiques pré-entraînés uniquement sur du texte. Bien que simple, cette formulation au niveau des pixels présente des capacités limitées d’intégration des modèles vision-langage, souvent pré-entraînés sur des paires image-texte, qui montrent actuellement un grand potentiel pour les tâches visuelles. Inspirés par l’observation que les humains effectuent souvent une étiquetage sémantique au niveau des segments, nous proposons de décomposer la ZS3 en deux sous-tâches : 1) une tâche de regroupement sans catégorie (class-agnostic grouping) visant à regrouper les pixels en segments ; 2) une tâche de classification zéro-shot au niveau des segments. La première tâche, n’impliquant aucune information de catégorie, peut être directement transférée pour regrouper les pixels même pour des classes inconnues. La seconde tâche opère au niveau des segments, offrant ainsi une voie naturelle pour exploiter efficacement les grands modèles vision-langage pré-entraînés sur des paires image-texte (par exemple, CLIP) dans le cadre de la ZS3. À partir de cette formulation décomposée, nous proposons un modèle simple et efficace pour la segmentation sémantique zéro-shot, nommé ZegFormer, qui surpasse largement les méthodes précédentes sur les benchmarks standards de ZS3, avec des gains de 22 points sur PASCAL VOC et 3 points sur COCO-Stuff en termes de mIoU pour les classes inconnues. Le code sera publié à l’adresse suivante : https://github.com/dingjiansw101/ZegFormer.