HyperAIHyperAI
il y a 2 mois

ProxyCLIP : L'attention par proxy améliore CLIP pour la segmentation à vocabulaire ouvert

Mengcheng Lan; Chaofeng Chen; Yiping Ke; Xinjiang Wang; Litong Feng; Wayne Zhang
ProxyCLIP : L'attention par proxy améliore CLIP pour la segmentation à vocabulaire ouvert
Résumé

La segmentation sémantique à vocabulaire ouvert nécessite que les modèles intègrent efficacement les représentations visuelles avec des étiquettes sémantiques à vocabulaire ouvert. Bien que les modèles d'entraînement préalable par contraste linguistique-image (CLIP) soient remarquables pour reconnaître des concepts visuels à partir du texte, ils peinent souvent à assurer la cohérence des segments en raison de leurs capacités limitées de localisation. En revanche, les modèles fondamentaux de vision (VFMs) excellent dans l'acquisition de représentations visuelles locales spatialement cohérentes, mais ils manquent de compréhension sémantique. Cet article présente ProxyCLIP, un cadre innovant conçu pour harmoniser les forces du CLIP et des VFMs, facilitant ainsi une segmentation sémantique à vocabulaire ouvert améliorée. ProxyCLIP utilise la correspondance des caractéristiques spatiales provenant des VFMs sous forme d'attention par procuration pour renforcer le CLIP, héritant ainsi de la robuste cohérence locale des VFMs tout en conservant la capacité exceptionnelle du CLIP à effectuer des transferts zéro-shot. Nous proposons une stratégie d'adaptation de la normalisation et du masquage pour obtenir l'attention par procuration des VFMs, permettant leur adaptation à différents VFMs. Remarquablement, en tant qu'approche sans entraînement, ProxyCLIP améliore considérablement le moyen Intersection over Union (mIoU) moyen sur huit benchmarks, passant de 40,3 à 44,4, démontrant son efficacité exceptionnelle dans le pontage entre la précision spatiale et la richesse sémantique pour la tâche de segmentation à vocabulaire ouvert.