HyperAIHyperAI

Command Palette

Search for a command to run...

Read-only Prompt Optimization für Vision-Language Few-shot Learning

Dongjun Lee Seokwon Song Jihee Suh Joonmyung Choi Sanghyeok Lee Hyunwoo J.Kim

Zusammenfassung

In den letzten Jahren hat sich gezeigt, dass Prompt-Tuning effektiv ist, um vortrainierte Vision-Sprache-Modelle an nachgeschaltete Aufgaben anzupassen. Diese Ansätze zielen darauf ab, die vortrainierten Modelle durch die Einführung lernbarer Prompts anzupassen, während die vortrainierten Gewichte fixiert bleiben. Allerdings können lernbare Prompts die interne Repräsentation im Selbst-Attention-Modul beeinflussen, was sich negativ auf die Leistungsstabilität und Generalisierbarkeit auswirken kann, insbesondere in datenarmen Szenarien. Um diese Probleme anzugehen, schlagen wir einen neuen Ansatz vor: Read-only Prompt Optimization (RPO). RPO nutzt maskierte Aufmerksamkeit, um eine Verschiebung der internen Repräsentation im vortrainierten Modell zu verhindern. Darüber hinaus werden die read-only Prompts zur Verbesserung der Optimierung basierend auf speziellen Tokens des vortrainierten Modells initialisiert. Unsere umfassenden Experimente zeigen, dass RPO sowohl bei der Generalisierung von Basis- zu Neuaufgaben als auch bei der Domänen-Generalisierung CLIP und CoCoOp übertrifft und dabei eine bessere Robustheit aufweist. Zudem erreicht der vorgeschlagene Ansatz eine verbesserte Generalisierbarkeit unter extrem datenarmen Bedingungen, gleichzeitig mit erhöhter Parameter-Effizienz und geringerem Rechenaufwand. Der Quellcode ist unter https://github.com/mlvlab/RPO verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Read-only Prompt Optimization für Vision-Language Few-shot Learning | Paper | HyperAI