Konsistenzgeleitete Prompt-Lernmethodik für Vision-Sprache-Modelle

Wir stellen CoPrompt, eine neue Feinabstimmungsmethode für visuell-sprachliche Modelle, vor. Unser Ansatz verbessert die Generalisierung großer Grundmodelle bei der Feinabstimmung auf Downstream-Aufgaben im Few-Shot-Szenario. Die zentrale Idee von CoPrompt besteht darin, eine Konsistenzbedingung bei der Vorhersage zwischen trainierbaren und vortrainierten Modellen zu erzwingen, um Überanpassung an die Downstream-Aufgabe zu verhindern. Zusätzlich integrieren wir zwei weitere Komponenten in unsere Konsistenzbedingung, um die Leistung weiter zu steigern: die Sicherstellung von Konsistenz bei zwei gestörten Eingaben sowie die Kombination zweier dominanter Feinabstimmungsparadigmen, nämlich Prompting und Adapter. Die Erzwingung von Konsistenz bei gestörten Eingaben dient der zusätzlichen Regularisierung der Konsistenzbedingung und verbessert somit die Generalisierungsfähigkeit. Darüber hinaus ermöglicht die Integration von Adaptern und Prompts nicht nur eine verbesserte Leistung auf Downstream-Aufgaben, sondern bietet auch eine erhöhte Flexibilität bei der Feinabstimmung sowohl im Eingabe- als auch im Ausgaberaum. Dies erleichtert eine effektivere Anpassung an Downstream-Aufgaben im Few-Shot-Lernszenario. Experimente zeigen, dass CoPrompt bestehende Methoden in einer Vielzahl von Evaluierungssuiten übertrifft, darunter Generalisierung von Basis- zu Neuaufgaben, Domänen-Generalisierung und Cross-Dataset-Evaluation. Bei der Generalisierung erreicht CoPrompt den Stand der Technik bei Zero-Shot-Aufgaben und verbessert das gesamte harmonische Mittel über 11 Datensätze. Detaillierte Ablationsstudien belegen die Wirksamkeit jeder einzelnen Komponente in CoPrompt. Den Quellcode stellen wir unter https://github.com/ShuvenduRoy/CoPrompt zur Verfügung.