HyperAIHyperAI
il y a 2 mois

Apprendre à générer un masque textuel pour la segmentation sémantique en monde ouvert à partir de paires image-texte uniquement

Junbum Cha; Jonghwan Mun; Byungseok Roh
Apprendre à générer un masque textuel pour la segmentation sémantique en monde ouvert à partir de paires image-texte uniquement
Résumé

Nous abordons la segmentation sémantique du monde ouvert, qui vise à apprendre à segmenter des concepts visuels arbitraires dans les images, en utilisant uniquement des paires image-texte sans annotations denses. Les méthodes de segmentation du monde ouvert existantes ont montré des avancées impressionnantes en employant l'apprentissage par contraste (CL) pour apprendre une variété de concepts visuels et transférer cette compréhension au niveau de l'image à la tâche de segmentation. Cependant, ces méthodes basées sur le CL souffrent d'une discordance entre l'entraînement et le test, car elles ne considèrent que l'alignement image-texte pendant l'entraînement, alors que la segmentation nécessite un alignement région-texte pendant le test. Dans cet article, nous proposons un nouveau cadre d'Apprentissage par Contraste Textuel (TCL) qui permet à un modèle d'apprendre directement l'alignement région-texte. Notre méthode génère un masque de segmentation pour un texte donné, extrait une empreinte visuelle textuellement ancrée de la région masquée et l'aligne avec l'empreinte textuelle via TCL. En apprenant directement l'alignement région-texte, notre cadre encourage le modèle à améliorer directement la qualité des masques de segmentation générés. De plus, pour une comparaison rigoureuse et équitable, nous présentons un protocole d'évaluation unifié avec huit jeux de données largement utilisés pour la segmentation sémantique. Le TCL atteint des performances de segmentation zero-shot supérieures à celles de l'état de l'art avec des marges importantes dans tous les jeux de données. Le code est disponible sur https://github.com/kakaobrain/tcl.

Apprendre à générer un masque textuel pour la segmentation sémantique en monde ouvert à partir de paires image-texte uniquement | Articles de recherche récents | HyperAI