HyperAIHyperAI
il y a 11 jours

FreeSeg : Masque libre à partir d'un préentraînement contrastif interprétable langage-image pour la segmentation sémantique

Yi Li, Huifeng Yao, Hualiang Wang, Xiaomeng Li
FreeSeg : Masque libre à partir d'un préentraînement contrastif interprétable langage-image pour la segmentation sémantique
Résumé

La segmentation sémantique entièrement supervisée apprend à partir de masques denses, ce qui implique un coût d'annotation élevé dans un cadre à ensemble fermé. Dans cet article, nous utilisons le langage naturel comme signalisation sans aucune annotation au niveau des pixels pour la segmentation dans un monde ouvert. Nous appelons le cadre proposé FreeSeg, où les masques sont directement disponibles à partir de la carte de caractéristiques brutes d’un modèle préentraîné. Contrairement à la segmentation zéro-shot ou à ensemble ouvert, FreeSeg ne nécessite aucune annotation de masque, et il permet une prédiction étendue à de nombreuses catégories, dépassant ainsi la segmentation non supervisée d’ordre général. Plus précisément, FreeSeg extrait les masques gratuitement à partir de la carte de similarité image-texte (ITSM) issue d’un préentraînement contrastif interprétable image-texte (ICLIP). Nos améliorations centrales consistent en un pooling min lissé pour ICLIP dense, combiné aux stratégies de label partiel et de segmentation par pixel. En outre, FreeSeg est très simple, sans conception complexe telle que le regroupement, le clustering ou la recherche. En plus de sa simplicité, les performances de FreeSeg surpassent largement celles des méthodes de pointe précédentes, par exemple d’un écart de 13,4 % en mIoU sur le jeu de données VOC dans les mêmes conditions.

FreeSeg : Masque libre à partir d'un préentraînement contrastif interprétable langage-image pour la segmentation sémantique | Articles de recherche récents | HyperAI