Visual Prompt Tuning
Visual Prompt Tuning (VPT) ist eine parameter-effiziente Feinabstimmungsmethode, die eine kleine Anzahl von aufgabenbezogenen lernfähigen Parametern im Eingaberaum einführt, während der vortrainierte Transformer-Kern gefroren bleibt. Während des Trainings für Downstream-Aufgaben werden diese Parameter zusammen mit dem linearen Kopf optimiert. VPT erzielt gute Ergebnisse bei geringen Datenvolumina und behält diesen Vorteil bei verschiedenen Datenmengen. Zudem ist VPT wettbewerbsfähig mit verschiedenen Transformer-Größen und -Designs (wie ViTBase/Large/Huge, Swin), was es zu einem effektiven Ansatz macht, um sich an die wachsenden visuellen Backbone-Netzwerke anzupassen.