HyperAIHyperAI
il y a 11 jours

MVP-SEG : Apprentissage de prompts multi-vues pour la segmentation sémantique à vocabulaire ouvert

Jie Guo, Qimeng Wang, Yan Gao, Xiaolong Jiang, Xu Tang, Yao Hu, Baochang Zhang
MVP-SEG : Apprentissage de prompts multi-vues pour la segmentation sémantique à vocabulaire ouvert
Résumé

CLIP (Contrastive Language-Image Pretraining) est largement développé pour la reconnaissance d’images à vocabulaire ouvert en zero-shot au niveau de l’image, tandis que ses applications aux tâches au niveau du pixel restent peu explorées, la plupart des approches adoptant directement les caractéristiques CLIP sans adaptations réfléchies. Dans ce travail, nous démontrons d’abord la nécessité d’une adaptation des caractéristiques CLIP au niveau du pixel, puis proposons une solution efficace, nommée Multi-View Prompt learning (MVP-SEG), permettant d’atteindre une adaptation fine au niveau du pixel et de résoudre le problème de la segmentation sémantique à vocabulaire ouvert. Plus précisément, MVP-SEG apprend délibérément plusieurs prompts grâce à notre fonction de perte par contrainte orthogonale (OCLoss), chaque prompt étant supervisé pour exploiter les caractéristiques CLIP sur différentes parties d’un objet, tandis que les masques de segmentation collaboratifs générés par l’ensemble des prompts améliorent globalement la précision de segmentation. En outre, MVP-SEG introduit une étape de raffinement global des prompts (GPR) afin de réduire davantage le bruit de segmentation spécifique aux classes. Les expérimentations montrent que les prompts multi-vues appris à partir de catégories observées possèdent une forte capacité de généralisation vers des catégories non vues, et que MVP-SEG+, qui intègre une phase de transfert de connaissances, surpassent significativement les méthodes antérieures sur plusieurs benchmarks. En outre, les résultats qualitatifs confirment que MVP-SEG permet effectivement une meilleure focalisation sur différentes parties locales des objets.

MVP-SEG : Apprentissage de prompts multi-vues pour la segmentation sémantique à vocabulaire ouvert | Articles de recherche récents | HyperAI