HyperAIHyperAI
il y a 11 jours

Exploration des indices régionaux dans CLIP pour la segmentation sémantique zéro-shot

{Shi-Min Hu, Miao Wang, Meng-Hao Guo, Yi Zhang}
Exploration des indices régionaux dans CLIP pour la segmentation sémantique zéro-shot
Résumé

CLIP a démontré des progrès notables dans la reconnaissance visuelle grâce à son pré-entraînement puissant sur de grandes collections de paires image-texte. Toutefois, un défi critique demeure : comment transférer les connaissances au niveau de l’image vers des tâches de compréhension au niveau du pixel, telles que la segmentation sémantique. Dans cet article, afin de relever ce défi, nous analysons l’écart entre les capacités du modèle CLIP et les exigences de la tâche de segmentation sémantique zéro-shot. À partir de notre analyse et de nos observations, nous proposons une nouvelle méthode pour la segmentation sémantique zéro-shot, nommée CLIP-RC (CLIP with Regional Clues), fondée sur deux principaux principes. D’une part, un pont au niveau des régions est nécessaire pour fournir des sémantiques à fort grain. D’autre part, le surapprentissage doit être atténué durant la phase d’entraînement. Grâce à ces découvertes, CLIP-RC atteint des performances de pointe sur diverses benchmarks de segmentation sémantique zéro-shot, notamment PASCAL VOC, PASCAL Context et COCO-Stuff 164K. Le code sera disponible à l’adresse suivante : https://github.com/Jittor/JSeg.

Exploration des indices régionaux dans CLIP pour la segmentation sémantique zéro-shot | Articles de recherche récents | HyperAI