vor 17 Tagen

Einsetzen von Vision-Language-Modellen zur Verbesserung der Domänenverallgemeinerung bei der Bildklassifikation

Sravanti Addepalli, Ashish Ramayee Asokan, Lakshay Sharma, R. Venkatesh Babu

Abstract

Vision-Language-Modelle (VLMs), wie beispielsweise CLIP, werden auf umfangreichen Datensätzen aus Bild-Text-Paaren trainiert, was zu beachtlicher Generalisierung über verschiedene Datensätze hinweg führt. In mehreren Fällen sind jedoch die hohen Kosten für das Training sowie die Sammlung und Aufbereitung der Daten nicht durch die Anwendungsberechtigung gerechtfertigt. Dies begründet ein Vendor-Client-Paradigma, bei dem ein Anbieter ein großskaliges VLM trainiert und Kunden lediglich über eine pay-per-query-Basis im Black-Box-Setting Zugriff auf Eingabe-Ausgabe-Interaktionen gewährt. Der Kunde strebt an, die Inferenzkosten zu minimieren, indem er das VLM mittels begrenzter, auf die spezifische Aufgabe zugeschnittener Daten auf ein Studentenmodell abbildet und dieses anschließend in der nachgeschalteten Anwendung einsetzt. Während eine naive Abbildung die Genauigkeit des Studenten im In-Domain (ID)-Bereich erheblich verbessert, gelingt es ihr nicht, die überlegene Out-of-Distribution (OOD)-Generalisierung des VLM-Teachers mit den begrenzt verfügbaren beschrifteten Bildern zu übertragen. Um dies zu beheben, schlagen wir VL2V-ADiP (Vision-Language to Vision – Align, Distill, Predict) vor, welches zunächst die visuellen und sprachlichen Modalitäten des Teacher-Modells mit der visuellen Modalität eines vortrainierten Studentenmodells ausrichtet und anschließend die ausgerichteten VLM-Darstellungen auf das Studentenmodell abbildet. Dadurch wird der vortrainierte Merkmalsraum des Studenten maximal bewahrt, während gleichzeitig die reichhaltigen Darstellungen des VLM-Bildencoders und die überlegene Generalisierungsfähigkeit der Textembeddings integriert werden. Die vorgeschlagene Methode erzielt state-of-the-art-Ergebnisse auf den etablierten Benchmark-Aufgaben zur Domain-Generalisierung sowohl in einer Black-Box-Teacher-Umgebung als auch in einer White-Box-Umgebung, in der die Gewichte des VLM zugänglich sind.