PVP: Vortrainierte visuelle parameter-effiziente Anpassung

Großskalige vortrainierte Transformatoren haben in verschiedenen Aufgaben des maschinellen Sehens beachtliche Erfolge erzielt. Dennoch ist die vollständige Feinabstimmung dieser Modelle für nachgeschaltete Aufgaben aufgrund ihrer hohen Rechen- und Speicheranforderungen weiterhin äußerst herausfordernd. In jüngster Zeit haben Parameter-effiziente Feinabstimmungstechniken (Parameter-Efficient Tuning, PETuning), wie beispielsweise Visual Prompt Tuning (VPT) und Low-Rank Adaptation (LoRA), die Rechen- und Speicherkosten erheblich reduziert, indem leichtgewichtige Prompt-Module in die vortrainierten Modelle integriert und diese mit einer geringen Anzahl an trainierbaren Parametern angepasst werden, während der Transformatoren-Backbone unverändert bleibt. Obwohl nur wenige Parameter angepasst werden müssen, benötigen die meisten PETuning-Methoden dennoch eine erhebliche Menge an Aufgaben-Daten, um gute Ergebnisse zu erzielen. Ihre Leistung ist insbesondere bei geringen Datenmengen unzureichend, besonders wenn nur ein oder zwei Beispiele pro Klasse zur Verfügung stehen. Um diesem Problem entgegenzuwirken, identifizieren wir zunächst empirisch, dass die schlechte Leistung hauptsächlich auf eine ungeeignete Initialisierung der Prompt-Module zurückzuführen ist, was auch in vortrainierten Sprachmodellen bestätigt wurde. Darauf aufbauend schlagen wir einen neuen Rahmen namens Pre-trained Visual Parameter-efficient (PVP) Tuning vor, bei dem die parameter-effizienten Anpassungsmodul zunächst vortrainiert werden, bevor sie zusammen mit dem vortrainierten Transformatoren-Backbone zur parameter-effizienten Feinabstimmung auf nachgeschalteten Aufgaben eingesetzt werden. Experimentelle Ergebnisse auf fünf Fine-Grained Visual Classification (FGVC)-Datenbanken sowie der VTAB-1k-Datenbank zeigen, dass unsere vorgeschlagene Methode die derzeit besten PETuning-Methoden signifikant übertrifft.