HyperAIHyperAI

Command Palette

Search for a command to run...

MaPLe: Multi-modal Prompt Learning

Muhammad Uzair Khattak Hanoona Rasheed Muhammad Maaz Salman Khan Fahad Shahbaz Khan

Zusammenfassung

Vortrainierte visuell-sprachliche (V-L) Modelle wie CLIP haben eine hervorragende Generalisierungsfähigkeit für nachgeschaltete Aufgaben gezeigt. Sie sind jedoch empfindlich gegenüber der Auswahl der Eingabetext-Prompts und erfordern eine sorgfältige Auswahl von Prompt-Vorlagen, um gute Leistungen zu erzielen. Angeregt durch die Literatur im Bereich des Natural Language Processing (NLP) lernen jüngere Ansätze zur Anpassung von CLIP Prompts als textuelle Eingaben, um CLIP für nachgeschaltete Aufgaben zu fine-tunen. Wir stellen fest, dass die Nutzung von Prompts zur Anpassung der Darstellungen in nur einer einzelnen Komponente von CLIP (Sprache oder Vision) suboptimal ist, da sie die Flexibilität zur dynamischen Anpassung beider Darstellungsräume in Abhängigkeit einer nachgeschalteten Aufgabe nicht ermöglicht. In dieser Arbeit schlagen wir Multi-modal Prompt Learning (MaPLe) für sowohl die visuelle als auch die sprachliche Komponente vor, um die Alignment zwischen visuellen und sprachlichen Darstellungen zu verbessern. Unser Entwurf fördert eine starke Kopplung zwischen den visuell-sprachlichen Prompts, um gegenseitige Synergien sicherzustellen, und verhindert gleichzeitig die Lernung unabhängiger, einmodaler Lösungen. Darüber hinaus lernen wir separate Prompts über verschiedene frühe Stufen hinweg, um schrittweise die stufenweise Merkmalsbeziehungen zu modellieren und ein reichhaltiges Kontextverständnis zu ermöglichen. Wir evaluieren die Wirksamkeit unseres Ansatzes anhand dreier repräsentativer Aufgaben: Generalisierung auf neue Klassen, neue Ziel-Datensätze und unerwartete Domänenverschiebungen. Im Vergleich zur state-of-the-art-Methode Co-CoOp zeigt MaPLe eine überzeugende Leistung und erreicht eine absolute Steigerung um 3,45 % bei neuen Klassen sowie 2,72 % bei der Gesamtharmonischen Mittelwert, gemittelt über 11 unterschiedliche Bilderkennungs-Datensätze. Unser Code und die vortrainierten Modelle sind unter https://github.com/muzairkhattak/multimodal-prompt-learning verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp