CRIS : Segmentation d'images guidée par CLIP

La segmentation d'image par référence vise à segmenter un référent à travers une expression linguistique naturelle. En raison des propriétés de données distinctes entre le texte et l'image, il est difficile pour un réseau de bien aligner les caractéristiques textuelles et celles au niveau des pixels. Les approches existantes utilisent des modèles pré-entraînés pour faciliter l'apprentissage, mais transfèrent séparément les connaissances en langage/vision à partir de ces modèles pré-entraînés, ignorant ainsi les informations correspondantes multimodales. Inspirés par les récentes avancées dans l'entraînement préalable contraste entre langage et image (Contrastive Language-Image Pretraining, CLIP), nous proposons dans cet article un cadre de segmentation d'image par référence piloté par CLIP (CLIP-Driven Referring Image Segmentation, CRIS) qui fonctionne de bout en bout. Pour transférer efficacement les connaissances multimodales, CRIS recourt à la décodification vision-langage et à l'apprentissage contraste pour réaliser l'alignement texte-pixel. Plus précisément, nous concevons un décodeur vision-langage pour propager des informations sémantiques fines des représentations textuelles à chaque activation au niveau des pixels, ce qui favorise la cohérence entre les deux modalités. De plus, nous présentons un apprentissage contraste texte-pixel pour imposer explicitement que la caractéristique textuelle soit similaire aux caractéristiques au niveau des pixels associées et dissimilaires aux éléments non pertinents. Les résultats expérimentaux sur trois jeux de données de référence montrent que notre cadre proposé dépasse significativement les performances de l'état de l'art sans aucun traitement postérieur. Le code sera rendu disponible.