vor 6 Monaten

Zusammenfassung

Prompt Learning ist eine der effektivsten und aktuellsten Ansätze, leistungsstarke Vision-Text-Grundmodelle wie CLIP an nachgeschaltete Datensätze anzupassen, indem man lernbare Prompt-Vektoren mit nur wenigen Beispielen optimiert. Allerdings bleibt das Hauptproblem bestehen, dass Prompt Learning trotz hervorragender Leistung auf in-domain-Daten Schwierigkeiten hat, sich auf unbekannte Klassen und Domänen zu verallgemeinern. Einige bestehende Methoden zur Prompt Learning adressieren dieses Problem, indem sie adaptiv unterschiedliche Prompts für verschiedene Tokens oder Domänen generieren, ignorieren jedoch dabei die Fähigkeit der gelernten Prompts, sich auf unbekannte Domänen zu verallgemeinern. In diesem Paper stellen wir ein neuartiges Prompt-Learning-Paradigma vor, das direkt domäneninvariante Prompts erzeugt, die auf unbekannte Domänen generalisiert werden können, und nennen es MetaPrompt. Konkret wird ein dual-modales Prompt-Tuning-Netzwerk vorgeschlagen, das Prompts sowohl für Eingaben aus der Bild- als auch aus der Textmodality generiert. Mit einem neuartigen asymmetrischen kontrastiven Verlust dient die Darstellung des ursprünglich vortrainierten Vision-Text-Modells als Supervision, um die Generalisierungsfähigkeit der gelernten Prompts zu verbessern. Vor allem schlagen wir einen auf Meta-Learning basierenden Prompt-Tuning-Algorithmus vor, der explizit sicherstellt, dass der für eine bestimmte Domäne oder Klasse angepasste, aufgabe-spezifische Prompt auch in einer anderen Domäne oder Klasse gute Leistung erzielt. Umfangreiche Experimente auf 11 Datensätzen für Base-to-New-Generalisierung und 4 Datensätzen für Domänen-Generalisierung zeigen, dass unsere Methode beständig und signifikant gegenüber bestehenden Ansätzen übertrifft.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Computer Vision

Bildklassifikation

Multimodale Darstellung

Multimodal

Computervision

Aufgabe

Cairong Zhao Yubin Wang Xinyang Jiang Yifei Shen Kaitao Song Dongsheng Li Duoqian Miao

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Computer Vision

Bildklassifikation

Multimodale Darstellung

Multimodal

Computervision

Aufgabe

Cairong Zhao Yubin Wang Xinyang Jiang Yifei Shen Kaitao Song Dongsheng Li Duoqian Miao

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Lernen von domainspezifischen invarianten Prompts für Vision-Sprache-Modelle

Cairong Zhao Yubin Wang Xinyang Jiang Yifei Shen Kaitao Song Dongsheng Li Duoqian Miao

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Lernen von domainspezifischen invarianten Prompts für Vision-Sprache-Modelle

Cairong Zhao Yubin Wang Xinyang Jiang Yifei Shen Kaitao Song Dongsheng Li Duoqian Miao

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Lernen von domainspezifischen invarianten Prompts für Vision-Sprache-Modelle

Cairong Zhao Yubin Wang Xinyang Jiang Yifei Shen Kaitao Song Dongsheng Li Duoqian Miao

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters