HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen von domainspezifischen invarianten Prompts für Vision-Sprache-Modelle

Cairong Zhao Yubin Wang Xinyang Jiang Yifei Shen Kaitao Song Dongsheng Li Duoqian Miao

Zusammenfassung

Prompt Learning ist eine der effektivsten und aktuellsten Ansätze, leistungsstarke Vision-Text-Grundmodelle wie CLIP an nachgeschaltete Datensätze anzupassen, indem man lernbare Prompt-Vektoren mit nur wenigen Beispielen optimiert. Allerdings bleibt das Hauptproblem bestehen, dass Prompt Learning trotz hervorragender Leistung auf in-domain-Daten Schwierigkeiten hat, sich auf unbekannte Klassen und Domänen zu verallgemeinern. Einige bestehende Methoden zur Prompt Learning adressieren dieses Problem, indem sie adaptiv unterschiedliche Prompts für verschiedene Tokens oder Domänen generieren, ignorieren jedoch dabei die Fähigkeit der gelernten Prompts, sich auf unbekannte Domänen zu verallgemeinern. In diesem Paper stellen wir ein neuartiges Prompt-Learning-Paradigma vor, das direkt domäneninvariante Prompts erzeugt, die auf unbekannte Domänen generalisiert werden können, und nennen es MetaPrompt. Konkret wird ein dual-modales Prompt-Tuning-Netzwerk vorgeschlagen, das Prompts sowohl für Eingaben aus der Bild- als auch aus der Textmodality generiert. Mit einem neuartigen asymmetrischen kontrastiven Verlust dient die Darstellung des ursprünglich vortrainierten Vision-Text-Modells als Supervision, um die Generalisierungsfähigkeit der gelernten Prompts zu verbessern. Vor allem schlagen wir einen auf Meta-Learning basierenden Prompt-Tuning-Algorithmus vor, der explizit sicherstellt, dass der für eine bestimmte Domäne oder Klasse angepasste, aufgabe-spezifische Prompt auch in einer anderen Domäne oder Klasse gute Leistung erzielt. Umfangreiche Experimente auf 11 Datensätzen für Base-to-New-Generalisierung und 4 Datensätzen für Domänen-Generalisierung zeigen, dass unsere Methode beständig und signifikant gegenüber bestehenden Ansätzen übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Lernen von domainspezifischen invarianten Prompts für Vision-Sprache-Modelle | Paper | HyperAI