L'ajustement de masques de haute qualité est crucial pour la segmentation à vocabulaire ouvert.

Le segmention d'images à vocabulaire ouvert a été améliorée grâce à la synergie entre les générateurs de masques et les modèles vision-langage tels que le pré-entraînement contrastif langage-image (CLIP). Les approches précédentes se concentrent sur la génération de masques tout en alignant les caractéristiques des masques avec les plongements textuels pendant l'entraînement. Dans cet article, nous observons que s'appuyer sur des masques de faible qualité générés peut affaiblir l'alignement de la vision et du langage dans les représentations régionales. Cela motive la présentation d'un nouveau cadre de fine-tuning, nommé MaskCLIP++, qui utilise des masques véritables plutôt que des masques générés pour renforcer la capacité de classification des masques de CLIP. En raison de la diversité limitée des jeux de données de segmentation d'images annotés par des masques, nous proposons d'intégrer un principe d'alignement cohérent lors du fine-tuning, ce qui atténue le biais catégoriel envers le jeu de données utilisé pour le fine-tuning. Après un fine-tuning à faible coût, MaskCLIP++ améliore considérablement les performances de classification des masques sur des jeux de données multi-domaines. Associé au générateur de masques utilisé dans les méthodes précédentes basées sur des masques pour le segmention à vocabulaire ouvert, nous obtenons des améliorations de performance respectivement de +1,7 ; +2,3 ; +2,1 ; +3,1 et +0,3 mIoU sur les jeux de données A-847, PC-459, A-150, PC-59 et PAS-20. Le code est disponible à l'adresse suivante : https://github.com/HVision-NKU/MaskCLIPpp .