HyperAIHyperAI
vor 9 Tagen

Visual Prompt Tuning

Menglin Jia, Luming Tang, Bor-Chun Chen, Claire Cardie, Serge Belongie, Bharath Hariharan, Ser-Nam Lim
Visual Prompt Tuning
Abstract

Der derzeitige Ansatz zur Anpassung vortrainierter Modelle besteht darin, alle Parameter des Backbone-Modells zu aktualisieren, also eine vollständige Feinabstimmung (full fine-tuning) durchzuführen. In dieser Arbeit stellen wir Visual Prompt Tuning (VPT) als eine effiziente und wirksame Alternative zur vollständigen Feinabstimmung für große Transformer-Modelle im Bereich der Bildverarbeitung vor. Inspiriert durch jüngste Fortschritte bei der effizienten Feinabstimmung großer Sprachmodelle, führt VPT lediglich eine geringe Anzahl an trainierbaren Parametern (weniger als 1 % der Gesamtmodellparameter) im Eingaberaum ein, während der Modell-Backbone unverändert bleibt. Durch umfangreiche Experimente auf einer Vielzahl von Downstream-Aufgaben der Bilderkennung zeigen wir, dass VPT im Vergleich zu anderen parametereffizienten Feinabstimmungsverfahren erhebliche Leistungsverbesserungen erzielt. Vor allem zeigt sich, dass VPT in vielen Fällen – unabhängig von der Modellgröße und der Skalierung der Trainingsdaten – die Leistung der vollständigen Feinabstimmung sogar übertreffen kann, gleichzeitig aber die Speicherkosten pro Aufgabe erheblich reduziert.