HyperAIHyperAI
il y a 2 mois

TagCLIP : Un Cadre Local-à-Global pour Améliorer la Classification Multiclasse à Vocabulaire Ouvert de CLIP Sans Entraînement

Yuqi Lin; Minghao Chen; Kaipeng Zhang; Hengjia Li; Mingming Li; Zheng Yang; Dongqin Lv; Binbin Lin; Haifeng Liu; Deng Cai
TagCLIP : Un Cadre Local-à-Global pour Améliorer la Classification Multiclasse à Vocabulaire Ouvert de CLIP Sans Entraînement
Résumé

Le pré-entraînement contrastif de langage et d'image (CLIP) a démontré des capacités impressionnantes en classification à vocabulaire ouvert. Le jeton de classe dans l'encodeur d'image est entraîné pour capturer les caractéristiques globales permettant de distinguer différentes descriptions textuelles, supervisé par une perte contrastive, ce qui le rend très efficace pour la classification mono-étiquette. Cependant, il montre des performances médiocres sur des jeux de données multi-étiquettes car la caractéristique globale tend à être dominée par la classe la plus évidente, et la nature contrastive de l'opération softmax l'aggrave. Dans cette étude, nous observons que les résultats de classification multi-étiquettes dépendent fortement des caractéristiques locales discriminantes mais sont négligés par CLIP. Par conséquent, nous analysons la préservation des informations spatiales au niveau des patches dans CLIP et proposons un cadre local-to-global pour obtenir des étiquettes d'image. Ce cadre comprend trois étapes : (1) classification au niveau des patches pour obtenir des scores grossiers ; (2) module de raffinement d'attention à double masquage (DMAR) pour affiner les scores grossiers ; (3) module de réidentification par classe (CWR) pour corriger les prédictions d'un point de vue global. Ce cadre repose uniquement sur un CLIP figé et améliore considérablement ses performances en classification multi-étiquettes sur diverses benchmarks sans entraînement spécifique au jeu de données. De plus, afin d'évaluer de manière exhaustive la qualité et la praticité des étiquettes générées, nous étendons leur application à une tâche aval, à savoir le segmention sémantique faiblement supervisée (WSSS) avec les étiquettes générées comme pseudo-étiquettes au niveau de l'image. Les expériences montrent que ce paradigme classify-then-segment dépasse largement les autres méthodes de segmentation sans annotation et valide l'efficacité des étiquettes générées. Notre code est disponible sur https://github.com/linyq2117/TagCLIP.

TagCLIP : Un Cadre Local-à-Global pour Améliorer la Classification Multiclasse à Vocabulaire Ouvert de CLIP Sans Entraînement | Articles de recherche récents | HyperAI