MasQCLIP pour une segmentation d'image universelle à vocabulaire ouvert

Nous présentons une nouvelle méthode pour la segmentation d’images universelle à vocabulaire ouvert, capable d’effectuer simultanément la segmentation d’instances, la segmentation sémantique et la segmentation panoptique dans un cadre unifié. Notre approche, baptisée MasQCLIP, s’intègre de manière fluide à un modèle CLIP pré-entraîné en exploitant ses caractéristiques denses, évitant ainsi la nécessité d’un entraînement intensif des paramètres. MasQCLIP met l’accent sur deux aspects nouveaux lors de la conception d’une méthode de segmentation d’images basée sur CLIP : 1) un module élève-professeur permettant de traiter les masques des classes nouvelles (non vues) en extrayant de l’information des classes de base (vues) ; 2) un processus de fine-tuning visant à mettre à jour les paramètres des requêtes Q à l’intérieur du modèle CLIP. Grâce à ces deux conceptions simples et intuitives, MasQCLIP atteint des performances de pointe, surpassant de manière significative les méthodes concurrentes sur les trois tâches, notamment la segmentation d’instances, sémantique et panoptique à vocabulaire ouvert. La page du projet est disponible à l’adresse suivante : https://masqclip.github.io/.