HyperAIHyperAI

Command Palette

Search for a command to run...

Segmentation sémantique à vocabulaire ouvert par apprentissage contrastif aligné par tuiles

Jishnu Mukhoti Tsung-Yu Lin Omid Poursaeed Rui Wang Ashish Shah Philip H.S. Torr Ser-Nam Lim

Résumé

Nous introduisons Patch Aligned Contrastive Learning (PACL), une fonction de compatibilité modifiée pour la perte contrastive de CLIP, conçue pour entraîner un alignement entre les tokens de patch du encodeur visuel et le token CLS de l’encodeur textuel. Grâce à cet alignement, le modèle peut identifier les régions d’une image correspondant à une entrée textuelle donnée, et ainsi passer de manière fluide à la tâche de segmentation sémantique à vocabulaire ouvert, sans nécessiter d’étiquettes de segmentation durant l’entraînement. En utilisant des encodeurs CLIP pré-entraînés avec PACL, nous parvenons à établir l’état de l’art sur la tâche de segmentation zéro-shot à vocabulaire ouvert sur quatre benchmarks de segmentation distincts : Pascal VOC, Pascal Context, COCO Stuff et ADE20K. En outre, nous montrons que PACL est également applicable aux prédictions au niveau de l’image, et qu’en combinaison avec un arrière-plan CLIP, il améliore de manière générale la précision de classification zéro-shot par rapport à CLIP, sur une série de 12 jeux de données de classification d’images.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp