HyperAIHyperAI
vor 11 Tagen

Read-only Prompt Optimization für Vision-Language Few-shot Learning

Dongjun Lee, Seokwon Song, Jihee Suh, Joonmyung Choi, Sanghyeok Lee, Hyunwoo J.Kim
Read-only Prompt Optimization für Vision-Language Few-shot Learning
Abstract

In den letzten Jahren hat sich gezeigt, dass Prompt-Tuning effektiv ist, um vortrainierte Vision-Sprache-Modelle an nachgeschaltete Aufgaben anzupassen. Diese Ansätze zielen darauf ab, die vortrainierten Modelle durch die Einführung lernbarer Prompts anzupassen, während die vortrainierten Gewichte fixiert bleiben. Allerdings können lernbare Prompts die interne Repräsentation im Selbst-Attention-Modul beeinflussen, was sich negativ auf die Leistungsstabilität und Generalisierbarkeit auswirken kann, insbesondere in datenarmen Szenarien. Um diese Probleme anzugehen, schlagen wir einen neuen Ansatz vor: Read-only Prompt Optimization (RPO). RPO nutzt maskierte Aufmerksamkeit, um eine Verschiebung der internen Repräsentation im vortrainierten Modell zu verhindern. Darüber hinaus werden die read-only Prompts zur Verbesserung der Optimierung basierend auf speziellen Tokens des vortrainierten Modells initialisiert. Unsere umfassenden Experimente zeigen, dass RPO sowohl bei der Generalisierung von Basis- zu Neuaufgaben als auch bei der Domänen-Generalisierung CLIP und CoCoOp übertrifft und dabei eine bessere Robustheit aufweist. Zudem erreicht der vorgeschlagene Ansatz eine verbesserte Generalisierbarkeit unter extrem datenarmen Bedingungen, gleichzeitig mit erhöhter Parameter-Effizienz und geringerem Rechenaufwand. Der Quellcode ist unter https://github.com/mlvlab/RPO verfügbar.

Read-only Prompt Optimization für Vision-Language Few-shot Learning | Neueste Forschungsarbeiten | HyperAI