ZegCLIP : Vers l'adaptation de CLIP pour la segmentation sémantique zéro-shot

Récemment, CLIP a été appliqué aux tâches de apprentissage zéro-shot au niveau des pixels via un schéma en deux étapes. L'idée générale consiste à générer d'abord des propositions de régions indépendantes des classes, puis à alimenter les régions découpées ainsi obtenues dans CLIP afin d'exploiter sa capacité de classification zéro-shot au niveau de l'image. Bien que cette approche s'avère efficace, elle nécessite deux encodeurs d'images — un pour la génération des propositions et un autre pour CLIP — ce qui entraîne une chaîne de traitement complexe et un coût computationnel élevé. Dans ce travail, nous proposons une solution plus simple et plus efficace en une seule étape, qui étend directement la capacité de prédiction zéro-shot de CLIP du niveau de l'image au niveau des pixels. Notre investigation débute par une extension directe, prise comme base, qui génère des masques sémantiques en comparant la similarité entre les embeddings textuels et les embeddings de patch extraits de CLIP. Toutefois, ce paradigme tend à surajuster fortement les classes observées et à échouer à généraliser aux classes non vues. Pour résoudre ce problème, nous proposons trois améliorations simples mais efficaces, et montrons qu’elles permettent de préserver significativement la capacité intrinsèque zéro-shot de CLIP tout en améliorant la généralisation au niveau des pixels. L’intégration de ces modifications conduit à un système d’inférence sémantique zéro-shot efficace, appelé ZegCLIP. À travers des expérimentations étendues sur trois benchmarks publics, ZegCLIP démontre des performances supérieures, surpassant largement les méthodes de pointe dans les deux scénarios zéro-shot « inductifs » et « transductifs ». En outre, par rapport à la méthode en deux étapes, notre approche en une seule étape, ZegCLIP, réalise un gain de vitesse d’environ cinq fois lors de l’inférence. Le code est disponible à l’adresse suivante : https://github.com/ZiqinZhou66/ZegCLIP.git.