il y a 17 jours

Exploiter les modèles vision-langage pour améliorer la généralisation domainale dans la classification d'images

Sravanti Addepalli, Ashish Ramayee Asokan, Lakshay Sharma, R. Venkatesh Babu

Résumé

Les modèles vision-langage (VLM) tels que CLIP sont entraînés sur de grandes quantités de paires image-texte, ce qui leur confère une généralisation remarquable sur plusieurs distributions de données. Toutefois, dans de nombreux cas, les coûts élevés liés à l'entraînement et à la collecte/curation des données ne justifient pas l'application finale. Cela motive un paradigme fournisseur-client, dans lequel un fournisseur entraîne un VLM à grande échelle et accorde aux clients un accès uniquement aux entrées-sorties, sur une base payante par requête, dans un cadre « boîte noire ». Le client vise à minimiser le coût d'inférence en distillant le VLM enseignant vers un modèle étudiant, en utilisant uniquement les données spécifiques à la tâche, limitées, puis en déployant ce modèle étudiant dans l'application finale. Bien que la distillation naïve améliore considérablement l’exactitude en domaine (ID) du modèle étudiant, elle échoue à transférer la supérieure généralisation hors domaine (OOD) du modèle enseignant VLM, en raison du faible nombre d’images étiquetées disponibles. Pour atténuer ce problème, nous proposons VL2V-ADiP (Vision-Language to Vision – Align, Distill, Predict), une méthode qui aligne d’abord les modalités visuelle et linguistique du modèle enseignant avec la modale visuelle d’un modèle étudiant pré-entraîné, puis distille les représentations du VLM alignées vers le modèle étudiant. Cette approche préserve au maximum les caractéristiques pré-entraînées du modèle étudiant, tout en intégrant les représentations riches du encodeur d’images du VLM et la généralisation supérieure des embeddings linguistiques. La méthode proposée atteint des résultats de pointe sur les benchmarks standards de généralisation de domaine, tant dans un cadre « boîte noire » où seul l’accès entrée-sortie est disponible, qu’avec un cadre « boîte blanche » où les poids du VLM sont accessibles.