HyperAIHyperAI
il y a 2 mois

CLIPSelf : Un Vision Transformer qui se distille lui-même pour la prédiction dense à vocabulaire ouvert

Size Wu; Wenwei Zhang; Lumin Xu; Sheng Jin; Xiangtai Li; Wentao Liu; Chen Change Loy
CLIPSelf : Un Vision Transformer qui se distille lui-même pour la prédiction dense à vocabulaire ouvert
Résumé

Les tâches de prédiction dense à vocabulaire ouvert, telles que la détection d'objets et la segmentation d'images, ont été considérablement améliorées grâce au succès de l'entraînement préalable par contraste linguistique-image (CLIP). Les modèles CLIP, en particulier ceux intégrant des transformateurs visuels (ViTs), ont montré une capacité de généralisation remarquable dans la classification d'images à zéro coup d'œil. Cependant, lors du transfert de l'alignement vision-langage de CLIP de la représentation globale des images à la représentation locale des régions pour les tâches de prédiction dense à vocabulaire ouvert, les ViTs CLIP sont confrontés à un décalage de domaine entre les images complètes et les régions locales d'images. Dans cet article, nous menons une analyse approfondie de l'alignement région-langage dans les modèles CLIP, qui est essentiel pour les tâches de prédiction dense à vocabulaire ouvert en aval. Par la suite, nous proposons une approche nommée CLIPSelf, qui adapte la capacité de reconnaissance au niveau des images des ViTs CLIP aux régions locales d'images sans nécessiter aucune paire région-texte. CLIPSelf permet aux ViTs de se distiller en alignant une représentation régionale extraite de sa carte de caractéristiques dense avec la représentation au niveau des images du recadrage correspondant. Avec ces ViTs améliorés, nous obtenons de nouvelles performances record sur la détection d'objets à vocabulaire ouvert, la segmentation sémantique et la segmentation panoramique sur diverses基准 (benchmarks). Les modèles et le code sont disponibles sur https://github.com/wusize/CLIPSelf.