HyperAIHyperAI
vor 16 Tagen

Nochmals die Kraft von Prompt für die visuelle Feinabstimmung betrachtet

Yuzhu Wang, Lechao Cheng, Chaowei Fang, Dingwen Zhang, Manni Duan, Meng Wang
Nochmals die Kraft von Prompt für die visuelle Feinabstimmung betrachtet
Abstract

Visual Prompt Tuning (VPT) stellt eine vielversprechende Lösung dar, bei der lernbare Prompt-Token eingesetzt werden, um vortrainierte Modelle für nachgeschaltete Aufgaben anzupassen. Dennoch begegnen VPT und seine Varianten häufig Herausforderungen wie die Initialisierung der Prompts, die Länge der Prompts sowie suboptimale Leistung bei selbstüberwachtem Vortrainieren, was eine erfolgreiche Kontextanpassung erschwert. Diese Studie beginnt mit einer Untersuchung der Korrelationsentwicklung zwischen Prompts und Patch-Token während des effizienten Trainings. Ausgehend von der Beobachtung, dass die Prompt-Token eine hohe wechselseitige Information mit den Patch-Token aufweisen, schlagen wir vor, die Prompts mit Prototypen der nachgeschalteten Token zu initialisieren. Diese strategische Initialisierung ersetzt die herkömmliche Vorgehensweise und führt zu einer erheblichen Leistungssteigerung beim Feintuning. Um die Leistung weiter zu verfeinern, optimieren wir die Token-Konstruktion mittels einer vereinfachten Pipeline, die eine hervorragende Leistung erzielt, ohne dass sich die Rechenkosten im Vergleich zu VPT signifikant erhöhen. Umfassende Experimente zeigen, dass der vorgeschlagene Ansatz bestehende Methoden deutlich übertrifft. So erreicht er beispielsweise in 19 von 24 Aufgaben eine bessere Leistung als das vollständige Feintuning, wobei weniger als 0,4 % der lernbaren Parameter auf den Benchmarks FGVC und VTAB-1K verwendet werden. Insbesondere zeigt unsere Methode eine erhebliche Verbesserung bei der Anpassung selbstüberwachten Vortrainierens, wobei die Aufgabenleistung um mindestens 10 % bis 30 % steigt. Darüber hinaus zeigen die experimentellen Ergebnisse, dass der vorgeschlagene SPT robust gegenüber unterschiedlichen Prompt-Längen ist und sich gut mit der Modellkapazität sowie der Größe der Trainingsdaten skaliert. Abschließend bieten wir eine einflussreiche Analyse des erforderlichen Datenvolumens zur erfolgreichen Anpassung vortrainierter Modelle an nachgeschaltete Aufgaben. Der Quellcode ist unter https://github.com/WangYZ1608/Self-Prompt-Tuning verfügbar.

Nochmals die Kraft von Prompt für die visuelle Feinabstimmung betrachtet | Neueste Forschungsarbeiten | HyperAI