HyperAIHyperAI

Command Palette

Search for a command to run...

Einsetzen von Vision-Language-Modellen zur Verbesserung der Domänenverallgemeinerung bei der Bildklassifikation

Sravanti Addepalli Ashish Ramayee Asokan Lakshay Sharma R. Venkatesh Babu

Zusammenfassung

Vision-Language-Modelle (VLMs), wie beispielsweise CLIP, werden auf umfangreichen Datensätzen aus Bild-Text-Paaren trainiert, was zu beachtlicher Generalisierung über verschiedene Datensätze hinweg führt. In mehreren Fällen sind jedoch die hohen Kosten für das Training sowie die Sammlung und Aufbereitung der Daten nicht durch die Anwendungsberechtigung gerechtfertigt. Dies begründet ein Vendor-Client-Paradigma, bei dem ein Anbieter ein großskaliges VLM trainiert und Kunden lediglich über eine pay-per-query-Basis im Black-Box-Setting Zugriff auf Eingabe-Ausgabe-Interaktionen gewährt. Der Kunde strebt an, die Inferenzkosten zu minimieren, indem er das VLM mittels begrenzter, auf die spezifische Aufgabe zugeschnittener Daten auf ein Studentenmodell abbildet und dieses anschließend in der nachgeschalteten Anwendung einsetzt. Während eine naive Abbildung die Genauigkeit des Studenten im In-Domain (ID)-Bereich erheblich verbessert, gelingt es ihr nicht, die überlegene Out-of-Distribution (OOD)-Generalisierung des VLM-Teachers mit den begrenzt verfügbaren beschrifteten Bildern zu übertragen. Um dies zu beheben, schlagen wir VL2V-ADiP (Vision-Language to Vision – Align, Distill, Predict) vor, welches zunächst die visuellen und sprachlichen Modalitäten des Teacher-Modells mit der visuellen Modalität eines vortrainierten Studentenmodells ausrichtet und anschließend die ausgerichteten VLM-Darstellungen auf das Studentenmodell abbildet. Dadurch wird der vortrainierte Merkmalsraum des Studenten maximal bewahrt, während gleichzeitig die reichhaltigen Darstellungen des VLM-Bildencoders und die überlegene Generalisierungsfähigkeit der Textembeddings integriert werden. Die vorgeschlagene Methode erzielt state-of-the-art-Ergebnisse auf den etablierten Benchmark-Aufgaben zur Domain-Generalisierung sowohl in einer Black-Box-Teacher-Umgebung als auch in einer White-Box-Umgebung, in der die Gewichte des VLM zugänglich sind.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp