HyperAIHyperAI

Command Palette

Search for a command to run...

ZegCLIP : Vers l'adaptation de CLIP pour la segmentation sémantique zéro-shot

Ziqin Zhou Bowen Zhang Yinjie Lei Lingqiao Liu Yifan Liu

Résumé

Récemment, CLIP a été appliqué aux tâches de apprentissage zéro-shot au niveau des pixels via un schéma en deux étapes. L'idée générale consiste à générer d'abord des propositions de régions indépendantes des classes, puis à alimenter les régions découpées ainsi obtenues dans CLIP afin d'exploiter sa capacité de classification zéro-shot au niveau de l'image. Bien que cette approche s'avère efficace, elle nécessite deux encodeurs d'images — un pour la génération des propositions et un autre pour CLIP — ce qui entraîne une chaîne de traitement complexe et un coût computationnel élevé. Dans ce travail, nous proposons une solution plus simple et plus efficace en une seule étape, qui étend directement la capacité de prédiction zéro-shot de CLIP du niveau de l'image au niveau des pixels. Notre investigation débute par une extension directe, prise comme base, qui génère des masques sémantiques en comparant la similarité entre les embeddings textuels et les embeddings de patch extraits de CLIP. Toutefois, ce paradigme tend à surajuster fortement les classes observées et à échouer à généraliser aux classes non vues. Pour résoudre ce problème, nous proposons trois améliorations simples mais efficaces, et montrons qu’elles permettent de préserver significativement la capacité intrinsèque zéro-shot de CLIP tout en améliorant la généralisation au niveau des pixels. L’intégration de ces modifications conduit à un système d’inférence sémantique zéro-shot efficace, appelé ZegCLIP. À travers des expérimentations étendues sur trois benchmarks publics, ZegCLIP démontre des performances supérieures, surpassant largement les méthodes de pointe dans les deux scénarios zéro-shot « inductifs » et « transductifs ». En outre, par rapport à la méthode en deux étapes, notre approche en une seule étape, ZegCLIP, réalise un gain de vitesse d’environ cinq fois lors de l’inférence. Le code est disponible à l’adresse suivante : https://github.com/ZiqinZhou66/ZegCLIP.git.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp