Generierung weicher Prompts für Domänenverallgemeinerung

Große vortrainierte visuelle Sprachmodelle (VLMs) haben eine beeindruckende Zero-Shot-Fähigkeit bei nachgeschalteten Aufgaben gezeigt, wenn man manuell entworfene Prompts verwendet. Um VLMs weiter an nachgeschaltete Aufgaben anzupassen, wurde der Ansatz des „soft prompts“ vorgeschlagen, der manuell entworfene Prompts ersetzt und anhand von datenspezifischen, domänenspezifischen Daten feinabgestimmt wird. Bisherige Methoden zum Prompt-Lernen erlernen hauptsächlich einen festen Prompt oder einen residuellen Prompt aus Trainingsbeispielen. Diese gelernten Prompts weisen jedoch eine geringe Vielfalt auf und ignorieren Informationen über nicht gesehene Domänen. In diesem Artikel formulieren wir den Prompt-Lernrahmen neu aus einer generativen Perspektive und schlagen eine einfache, jedoch effiziente Methode für die Aufgabe der Domänenverallgemeinerung (Domain Generalization, DG) vor, die als Soft Prompt Generation (SPG) bezeichnet wird. Konkret besteht SPG aus einer zweistufigen Trainingsphase und einer Inferenzphase. Während der Trainingsphase führen wir für jede Domäne einen soften Prompt-Label ein, um Wissensinhalte der generativen Modell-Domäne einzubinden. In der Inferenzphase nutzt man den Generator des generativen Modells, um instanzspezifische, weiche Prompts für eine nicht gesehene Ziel-Domäne zu generieren. Umfassende Experimente auf fünf Benchmark-Datenbanken dreier DG-Aufgaben zeigen, dass SPG die derzeit beste Leistung erzielt. Der Quellcode ist unter https://github.com/renytek13/Soft-Prompt-Generation-with-CGAN verfügbar.