HyperAIHyperAI
vor 11 Tagen

Lernen von domainspezifischen invarianten Prompts für Vision-Sprache-Modelle

Cairong Zhao, Yubin Wang, Xinyang Jiang, Yifei Shen, Kaitao Song, Dongsheng Li, Duoqian Miao
Lernen von domainspezifischen invarianten Prompts für Vision-Sprache-Modelle
Abstract

Prompt Learning ist eine der effektivsten und aktuellsten Ansätze, leistungsstarke Vision-Text-Grundmodelle wie CLIP an nachgeschaltete Datensätze anzupassen, indem man lernbare Prompt-Vektoren mit nur wenigen Beispielen optimiert. Allerdings bleibt das Hauptproblem bestehen, dass Prompt Learning trotz hervorragender Leistung auf in-domain-Daten Schwierigkeiten hat, sich auf unbekannte Klassen und Domänen zu verallgemeinern. Einige bestehende Methoden zur Prompt Learning adressieren dieses Problem, indem sie adaptiv unterschiedliche Prompts für verschiedene Tokens oder Domänen generieren, ignorieren jedoch dabei die Fähigkeit der gelernten Prompts, sich auf unbekannte Domänen zu verallgemeinern. In diesem Paper stellen wir ein neuartiges Prompt-Learning-Paradigma vor, das direkt domäneninvariante Prompts erzeugt, die auf unbekannte Domänen generalisiert werden können, und nennen es MetaPrompt. Konkret wird ein dual-modales Prompt-Tuning-Netzwerk vorgeschlagen, das Prompts sowohl für Eingaben aus der Bild- als auch aus der Textmodality generiert. Mit einem neuartigen asymmetrischen kontrastiven Verlust dient die Darstellung des ursprünglich vortrainierten Vision-Text-Modells als Supervision, um die Generalisierungsfähigkeit der gelernten Prompts zu verbessern. Vor allem schlagen wir einen auf Meta-Learning basierenden Prompt-Tuning-Algorithmus vor, der explizit sicherstellt, dass der für eine bestimmte Domäne oder Klasse angepasste, aufgabe-spezifische Prompt auch in einer anderen Domäne oder Klasse gute Leistung erzielt. Umfangreiche Experimente auf 11 Datensätzen für Base-to-New-Generalisierung und 4 Datensätzen für Domänen-Generalisierung zeigen, dass unsere Methode beständig und signifikant gegenüber bestehenden Ansätzen übertrifft.

Lernen von domainspezifischen invarianten Prompts für Vision-Sprache-Modelle | Neueste Forschungsarbeiten | HyperAI