Une Base de Ligne Simple pour la Segmentation Sémantique à Vocabulaire Ouvert avec un Modèle Pré-entraîné Vision-langue

Récemment, la classification d'images à vocabulaire ouvert par pré-entraînement de modèles vision-langage a montré des réalisations incroyables, permettant au modèle de classer des catégories arbitraires sans voir d'images supplémentaires annotées de cette catégorie. Cependant, il n'est toujours pas clair comment rendre la reconnaissance à vocabulaire ouvert efficace pour un plus large éventail de problèmes visuels. Cet article vise à réaliser une segmentation sémantique à vocabulaire ouvert en s'appuyant sur un modèle vision-langage pré-entraîné prêt à l'emploi, c'est-à-dire CLIP. Toutefois, la segmentation sémantique et le modèle CLIP opèrent à différents niveaux de granularité visuelle : la segmentation sémantique traite les pixels tandis que CLIP traite les images. Pour remédier à cette disparité dans le traitement de la granularité, nous rejetons l'utilisation du cadre FCN (Fully Convolutional Network) basé sur une seule étape prévalent et proposons un cadre de segmentation sémantique en deux étapes. La première étape extrait des propositions de masques généralisables, et la seconde étape utilise un modèle CLIP basé sur les images pour effectuer une classification à vocabulaire ouvert sur les sections d'images masquées générées lors de la première étape. Nos résultats expérimentaux montrent que ce cadre en deux étapes peut atteindre des performances supérieures à celles du FCN lorsqu'il est entraîné uniquement sur le jeu de données COCO Stuff et évalué sur d'autres jeux de données sans réajustement fin. De plus, ce cadre simple dépasse largement les précédents états de l'art en segmentation sémantique zéro-shot : +29,5 hIoU (harmonic Intersection over Union) sur le jeu de données Pascal VOC 2012 et +8,9 hIoU sur le jeu de données COCO Stuff. Grâce à sa simplicité et ses performances robustes, nous espérons que ce cadre servira de point de référence pour faciliter les recherches futures. Le code est rendu publiquement disponible sous l'URL suivante : \url{https://github.com/MendelXu/zsseg.baseline}.