HyperAIHyperAI
il y a 16 jours

Segmentation sémantique à vocabulaire ouvert par apprentissage contrastif aligné par tuiles

Jishnu Mukhoti, Tsung-Yu Lin, Omid Poursaeed, Rui Wang, Ashish Shah, Philip H.S. Torr, Ser-Nam Lim
Segmentation sémantique à vocabulaire ouvert par apprentissage contrastif aligné par tuiles
Résumé

Nous introduisons Patch Aligned Contrastive Learning (PACL), une fonction de compatibilité modifiée pour la perte contrastive de CLIP, conçue pour entraîner un alignement entre les tokens de patch du encodeur visuel et le token CLS de l’encodeur textuel. Grâce à cet alignement, le modèle peut identifier les régions d’une image correspondant à une entrée textuelle donnée, et ainsi passer de manière fluide à la tâche de segmentation sémantique à vocabulaire ouvert, sans nécessiter d’étiquettes de segmentation durant l’entraînement. En utilisant des encodeurs CLIP pré-entraînés avec PACL, nous parvenons à établir l’état de l’art sur la tâche de segmentation zéro-shot à vocabulaire ouvert sur quatre benchmarks de segmentation distincts : Pascal VOC, Pascal Context, COCO Stuff et ADE20K. En outre, nous montrons que PACL est également applicable aux prédictions au niveau de l’image, et qu’en combinaison avec un arrière-plan CLIP, il améliore de manière générale la précision de classification zéro-shot par rapport à CLIP, sur une série de 12 jeux de données de classification d’images.

Segmentation sémantique à vocabulaire ouvert par apprentissage contrastif aligné par tuiles | Articles de recherche récents | HyperAI