HyperAIHyperAI
vor 11 Tagen

PromptKD: Unsupervised Prompt Distillation für Vision-Language-Modelle

Zheng Li, Xiang Li, Xinyi Fu, Xin Zhang, Weiqiang Wang, Shuo Chen, Jian Yang
PromptKD: Unsupervised Prompt Distillation für Vision-Language-Modelle
Abstract

Prompt Learning ist zu einer wertvollen Technik geworden, um visuelle Sprachmodelle (VLMs), wie beispielsweise CLIP, für nachgeschaltete Aufgaben in spezifischen Domänen zu verbessern. Bestehende Arbeiten konzentrieren sich hauptsächlich auf die Gestaltung verschiedener Prompt-Formen und vernachlässigen dabei das Potenzial von Prompts als effektive Distillationsmechanismen zum Lernen aus größeren Lehrmodellen. In diesem Artikel stellen wir einen unsupervisierten Domänen-Prompt-Distillation-Rahmen vor, der darauf abzielt, das Wissen eines größeren Lehrmodells durch promptgesteuerte Nachahmung unter Verwendung unlabelierter Domänenbilder auf ein leichtgewichtiges Zielmodell zu übertragen. Konkret besteht unser Rahmenwerk aus zwei unterschiedlichen Phasen. In der ersten Phase prätrainieren wir ein großes CLIP-Lehrmodell mit Hilfe von Domänen-(Few-Shot-)Etiketten. Nach dem Prätraining nutzen wir die charakteristische, modality-entkoppelte Struktur von CLIP, indem wir die Textmerkmale – als Klassenvektoren – nur einmalig durch den Lehrtext-Encoder vorberechnen und speichern. In der anschließenden Phase werden die gespeicherten Klassenvektoren zwischen Lehr- und Schüler-Bild-Encodern gemeinsam genutzt, um die vorhergesagten Logits zu berechnen. Darüber hinaus richten wir die Logits beider Modelle mittels KL-Divergenz aus, wodurch der Schüler-Bild-Encoder angeregt wird, durch lernbare Prompts ähnliche Wahrscheinlichkeitsverteilungen wie das Lehrmodell zu erzeugen. Der vorgeschlagene Prompt-Distillationsprozess entlastet die Abhängigkeit von gelabelten Daten und ermöglicht es dem Algorithmus, eine große Menge unlabeled Bildmaterial innerhalb der Domäne zu nutzen. Schließlich werden das gut trainierte Schüler-Bild-Encoder-Modell sowie die vorab gespeicherten Textmerkmale (Klassenvektoren) zur Inferenz eingesetzt. Soweit uns bekannt ist, sind wir die Ersten, die (1) eine unsupervisierte, domänenspezifische, promptgesteuerte Wissensdistillation für CLIP durchführen und (2) einen praktikablen Mechanismus zur Vorspeicherung von Textmerkmalen als gemeinsame Klassenvektoren zwischen Lehr- und Schülermodell etablieren. Umfassende Experimente an 11 Datensätzen belegen die Wirksamkeit unseres Ansatzes.

PromptKD: Unsupervised Prompt Distillation für Vision-Language-Modelle | Neueste Forschungsarbeiten | HyperAI