HyperAIHyperAI
il y a 11 jours

PromptKD : Distillation de prompt non supervisée pour les modèles vision-langage

Zheng Li, Xiang Li, Xinyi Fu, Xin Zhang, Weiqiang Wang, Shuo Chen, Jian Yang
PromptKD : Distillation de prompt non supervisée pour les modèles vision-langage
Résumé

L’apprentissage par prompts s’est établi comme une technique précieuse pour améliorer les modèles vision-langage (VLM), tels que CLIP, dans des tâches en aval sur des domaines spécifiques. Les travaux existants se concentrent principalement sur la conception de diverses formes d’instructions (prompts), tout en négligeant le potentiel des prompts en tant que mécanismes efficaces de distillation pour apprendre à partir de modèles enseignants plus grands. Dans cet article, nous proposons un cadre non supervisé de distillation de prompts pour domaines spécifiques, visant à transférer les connaissances d’un modèle enseignant plus volumineux vers un modèle cible léger via une imitation pilotée par prompts, en utilisant uniquement des images non étiquetées du domaine. Plus précisément, notre cadre se compose de deux étapes distinctes. Dans la première étape, nous préentraînons un grand modèle enseignant CLIP à l’aide d’étiquettes de domaine (en faible quantité). Une fois le préentraînement terminé, nous exploitons les caractéristiques uniques de découplage modalité de CLIP en précalculant et en stockant une seule fois les caractéristiques textuelles sous forme de vecteurs de classes à l’aide de l’encodeur texte du modèle enseignant. Dans la phase suivante, ces vecteurs de classes préstockés sont partagés entre les encodeurs image du modèle enseignant et du modèle étudiant pour calculer les logits prédits. En outre, nous alignons les logits des deux modèles (enseignant et étudiant) via la divergence de Kullback-Leibler (KL), incitant ainsi l’encodeur image étudiant à générer des distributions de probabilité similaires à celles du modèle enseignant grâce à des prompts apprenables. Le processus de distillation par prompts proposé élimine toute dépendance aux données étiquetées, permettant ainsi à l’algorithme d’exploiter une vaste quantité d’images non étiquetées au sein du domaine. Enfin, les encodeurs image étudiants bien entraînés ainsi que les caractéristiques textuelles préstockées (vecteurs de classes) sont utilisés pour l’inférence. À notre connaissance, nous sommes les premiers à (1) réaliser une distillation non supervisée de connaissances pilotée par prompts pour CLIP dans un domaine spécifique, et (2) établir un mécanisme pratique de préstockage des caractéristiques textuelles sous forme de vecteurs de classes partagés entre modèle enseignant et modèle étudiant. Des expériences étendues sur 11 jeux de données démontrent l’efficacité de notre méthode.

PromptKD : Distillation de prompt non supervisée pour les modèles vision-langage | Articles de recherche récents | HyperAI