HyperAIHyperAI

Command Palette

Search for a command to run...

Apprendre à générer un masque textuel pour la segmentation sémantique en monde ouvert à partir de paires image-texte uniquement

Junbum Cha Jonghwan Mun Byungseok Roh

Résumé

Nous abordons la segmentation sémantique du monde ouvert, qui vise à apprendre à segmenter des concepts visuels arbitraires dans les images, en utilisant uniquement des paires image-texte sans annotations denses. Les méthodes de segmentation du monde ouvert existantes ont montré des avancées impressionnantes en employant l'apprentissage par contraste (CL) pour apprendre une variété de concepts visuels et transférer cette compréhension au niveau de l'image à la tâche de segmentation. Cependant, ces méthodes basées sur le CL souffrent d'une discordance entre l'entraînement et le test, car elles ne considèrent que l'alignement image-texte pendant l'entraînement, alors que la segmentation nécessite un alignement région-texte pendant le test. Dans cet article, nous proposons un nouveau cadre d'Apprentissage par Contraste Textuel (TCL) qui permet à un modèle d'apprendre directement l'alignement région-texte. Notre méthode génère un masque de segmentation pour un texte donné, extrait une empreinte visuelle textuellement ancrée de la région masquée et l'aligne avec l'empreinte textuelle via TCL. En apprenant directement l'alignement région-texte, notre cadre encourage le modèle à améliorer directement la qualité des masques de segmentation générés. De plus, pour une comparaison rigoureuse et équitable, nous présentons un protocole d'évaluation unifié avec huit jeux de données largement utilisés pour la segmentation sémantique. Le TCL atteint des performances de segmentation zero-shot supérieures à celles de l'état de l'art avec des marges importantes dans tous les jeux de données. Le code est disponible sur https://github.com/kakaobrain/tcl.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp