HyperAIHyperAI
il y a 2 mois

Segmentation d'Images Universelle à Vocabulaire Ouvert avec MaskCLIP

Zheng Ding; Jieke Wang; Zhuowen Tu
Segmentation d'Images Universelle à Vocabulaire Ouvert avec MaskCLIP
Résumé

Dans cet article, nous abordons une tâche émergente en vision par ordinateur, la segmentation d'images universelle à vocabulaire ouvert, qui vise à effectuer des segmentations sémantique/par instance/panoptique (étiquetage sémantique de l'arrière-plan + segmentation d'instances au premier plan) pour des catégories arbitraires décrites par du texte lors de l'inférence. Nous construisons d'abord une méthode de base en adoptant directement des modèles CLIP pré-entraînés sans ajustement fin ni distillation. Ensuite, nous développons MaskCLIP, une approche basée sur un Transformer dotée d'un encodeur visuel MaskCLIP, qui est un module uniquement encodeur intégrant sans heurt des jetons de masque avec un modèle ViT CLIP pré-entraîné pour la segmentation sémantique/par instance et la prédiction de classes. MaskCLIP apprend à utiliser efficacement et de manière optimale les caractéristiques partielles/denses pré-entraînées de CLIP au sein de l'encodeur visuel MaskCLIP, évitant ainsi le processus fastidieux d'entraînement entre un modèle étudiant et un modèle enseignant. MaskCLIP surpasse les méthodes précédentes pour la segmentation sémantique/par instance/panoptique sur les jeux de données ADE20K et PASCAL. Nous présentons des illustrations qualitatives de MaskCLIP avec des catégories personnalisées en ligne. Site web du projet : https://maskclip.github.io.

Segmentation d'Images Universelle à Vocabulaire Ouvert avec MaskCLIP | Articles de recherche récents | HyperAI