kontextbewusstes robustes Feintuning

Contrastive Language-Image Pre-trained (CLIP) Model verfügen über eine Zero-Shot-Fähigkeit, Bilder einer Klasse „[CLASS]“ zuzuordnen, indem sie die Ähnlichkeit zwischen dem Bild und dem Prompt-Satz „ein [CONTEXT] von [CLASS]“ ausnutzen. Aufgrund der umfassenden Texthinweise im Feld „[CONTEXT]“ ist das CLIP-Modell in der Lage, verschiedene Kontexte – beispielsweise Hintergrund, Stil, Perspektive – zu erkennen und zeigt eine bisher ungekannte Robustheit gegenüber einer Vielzahl von Verteilungsverschiebungen. Allerdings zeigen jüngere Arbeiten, dass eine weitere Feinjustierung der CLIP-Modelle die Genauigkeit erhöht, jedoch die Robustheit bei nachgeschalteten Aufgaben beeinträchtigt. Wir führen eine empirische Untersuchung durch, die zeigt, dass die Feinjustierung die kontextbewusste Fähigkeit der vortrainierten CLIP-Features beeinträchtigt. Um dieses Problem zu lösen, schlagen wir Context-Aware Robust Fine-tuning (CAR-FT) vor. CAR-FT regularisiert das Modell während der Feinjustierung, um kontextuelle Informationen effektiv zu erfassen. Konkret nutzen wir die Zero-Shot-Prompt-Gewichte, um die im Bild enthaltene Kontextverteilung abzuleiten. Durch Minimierung der Kullback-Leibler-Divergenz (KLD) zwischen den durch das ursprüngliche und das feinjustierte CLIP-Modell induzierten Kontextverteilungen, bewahrt CAR-FT die kontextbewusste Fähigkeit des CLIP-Modells und überträgt sie auf nachgeschaltete Aufgaben. Dadurch erreicht CAR-FT sowohl höhere In-Distribution (ID)- als auch Out-of-Distribution (OOD)-Genauigkeit. Die experimentellen Ergebnisse zeigen, dass CAR-FT eine überlegene Robustheit auf fünf OOD-Testdatensätzen des ImageNet erzielt und gleichzeitig die Genauigkeit auf neun nachgeschalteten Aufgaben steigert. Zudem übertrifft CAR-FT bisherige Domain Generalization (DG)-Methoden und erreicht eine durchschnittliche Genauigkeit von 78,5 % auf dem DomainBed-Benchmark, wodurch ein neuer SOTA (State-of-the-Art) etabliert wird.