HyperAIHyperAI
vor 17 Tagen

PRE: Vision-Language Prompt Learning mit Reparameterisierungs-Encoder

Thi Minh Anh Pham, An Duc Nguyen, Cephas Svosve, Vasileios Argyriou, Georgios Tzimiropoulos
PRE: Vision-Language Prompt Learning mit Reparameterisierungs-Encoder
Abstract

Große vortrainierte visuelle Sprachmodelle wie CLIP haben ein großes Potenzial für die zero-shot Übertragbarkeit auf nachgeschaltete Aufgaben gezeigt. Um jedoch optimale Leistung zu erzielen, ist die manuelle Auswahl von Prompts notwendig, um die Alignierung zwischen der Verteilung der nachgeschalteten Bilder und den textuellen Klassendescriptions zu verbessern. Diese manuelle Prompt-Engineering-Aufgabe stellt die größte Herausforderung für die praktische Anwendung solcher Modelle dar, da sie fachliches Wissen erfordert und äußerst zeitaufwendig ist. Um aufwändiges Prompt-Engineering zu vermeiden, führte kürzlich die Arbeit Context Optimization (CoOp) den Ansatz des Prompt-Lernens in den visuellen Bereich ein, indem lernbare textuelle Tokens verwendet wurden. Obwohl CoOp im Vergleich zu manuell konzipierten Prompts erhebliche Verbesserungen erzielt, weist der gelernte Kontext eine schlechtere Generalisierbarkeit auf, insbesondere für weitgehend unbekannte Klassen innerhalb desselben Datensatzes. In dieser Arbeit präsentieren wir Prompt Learning with Reparameterization Encoder (PRE) – eine einfache und effiziente Methode, die die Generalisierungsfähigkeit des lernbaren Prompts auf unbekannte Klassen verbessert, ohne dabei die Fähigkeit zum Lernen von Basis-Klassen zu verlieren. Anstatt die Prompts direkt zu optimieren, verwendet PRE einen Prompt-Encoder, um die Eingabeprompt-Embeddings umzuparametrisieren und so die Exploration von aufgabenbezogenem Wissen aus wenigen Beispielen zu fördern. Experimente und umfassende Ablationsstudien an acht Benchmarks zeigen, dass unser Ansatz eine effiziente Methode für das Prompt-Lernen darstellt. Insbesondere erreicht PRE im 16-Shot-Setting eine signifikante Verbesserung von 5,60 % im Durchschnitt der Genauigkeit auf neuen Klassen und 3 % im Harmonischen Mittel im Vergleich zu CoOp, wobei dies innerhalb einer akzeptablen Trainingszeit erzielt wird.