vor 13 Tagen

Anpassung von Vision-Sprache-Modellen ohne Labels: Eine umfassende Übersicht

Hao Dong, Lijun Sheng, Jian Liang, Ran He, Eleni Chatzi, Olga Fink

Abstract

Vision-Language-Modelle (VLMs) haben erstaunliche Generalisierungsfähigkeiten über eine breite Palette von Aufgaben hinweg demonstriert. Ihre Leistung bleibt jedoch oft suboptimal, wenn sie ohne spezifische Anpassung an die jeweilige Aufgabe direkt in konkreten Anwendungsszenarien eingesetzt werden. Um ihre Nutzbarkeit zu erhöhen, gleichzeitig aber die Daten-Effizienz zu bewahren, konzentriert sich die jüngste Forschung zunehmend auf unlabeled-Daten-unabhängige Adaptationsmethoden. Trotz wachsender Aufmerksamkeit in diesem Bereich fehlt es bislang an einer einheitlichen, auf Aufgaben ausgerichteten Übersicht über die unlabeled-geführte Adaptation von VLMs. Um diese Lücke zu schließen, präsentieren wir eine umfassende und strukturierte Darstellung des Forschungsfeldes. Wir schlagen eine Taxonomie vor, die sich an der Verfügbarkeit und Beschaffenheit unlabeled visueller Daten orientiert, und gliedert bestehende Ansätze in vier zentrale Paradigmen: datenfreie Übertragung (keine Daten), unlabeled-Domain-Übertragung (reiche Daten), episodische Testzeit-Adaptation (Batch-Daten) und Online-Testzeit-Adaptation (Streaming-Daten). Innerhalb dieses Rahmens analysieren wir die zentralen Methodologien und Adaptationsstrategien jedes Paradigmas, um ein systematisches Verständnis des Feldes zu etablieren. Zudem überprüfen wir repräsentative Benchmarks in unterschiedlichen Anwendungen und heben offene Herausforderungen sowie vielversprechende Forschungspfade für zukünftige Arbeiten hervor. Eine kontinuierlich aktualisierte Sammlung relevanter Literatur steht unter https://github.com/tim-learn/Awesome-LabelFree-VLMs zur Verfügung.