MaPLe: Multi-modal Prompt Learning

Vortrainierte visuell-sprachliche (V-L) Modelle wie CLIP haben eine hervorragende Generalisierungsfähigkeit für nachgeschaltete Aufgaben gezeigt. Sie sind jedoch empfindlich gegenüber der Auswahl der Eingabetext-Prompts und erfordern eine sorgfältige Auswahl von Prompt-Vorlagen, um gute Leistungen zu erzielen. Angeregt durch die Literatur im Bereich des Natural Language Processing (NLP) lernen jüngere Ansätze zur Anpassung von CLIP Prompts als textuelle Eingaben, um CLIP für nachgeschaltete Aufgaben zu fine-tunen. Wir stellen fest, dass die Nutzung von Prompts zur Anpassung der Darstellungen in nur einer einzelnen Komponente von CLIP (Sprache oder Vision) suboptimal ist, da sie die Flexibilität zur dynamischen Anpassung beider Darstellungsräume in Abhängigkeit einer nachgeschalteten Aufgabe nicht ermöglicht. In dieser Arbeit schlagen wir Multi-modal Prompt Learning (MaPLe) für sowohl die visuelle als auch die sprachliche Komponente vor, um die Alignment zwischen visuellen und sprachlichen Darstellungen zu verbessern. Unser Entwurf fördert eine starke Kopplung zwischen den visuell-sprachlichen Prompts, um gegenseitige Synergien sicherzustellen, und verhindert gleichzeitig die Lernung unabhängiger, einmodaler Lösungen. Darüber hinaus lernen wir separate Prompts über verschiedene frühe Stufen hinweg, um schrittweise die stufenweise Merkmalsbeziehungen zu modellieren und ein reichhaltiges Kontextverständnis zu ermöglichen. Wir evaluieren die Wirksamkeit unseres Ansatzes anhand dreier repräsentativer Aufgaben: Generalisierung auf neue Klassen, neue Ziel-Datensätze und unerwartete Domänenverschiebungen. Im Vergleich zur state-of-the-art-Methode Co-CoOp zeigt MaPLe eine überzeugende Leistung und erreicht eine absolute Steigerung um 3,45 % bei neuen Klassen sowie 2,72 % bei der Gesamtharmonischen Mittelwert, gemittelt über 11 unterschiedliche Bilderkennungs-Datensätze. Unser Code und die vortrainierten Modelle sind unter https://github.com/muzairkhattak/multimodal-prompt-learning verfügbar.