Command Palette
Search for a command to run...
Une phrase exprime mille images : généralisation de domaine par distillation de CLIP avec une guidance linguistique
Une phrase exprime mille images : généralisation de domaine par distillation de CLIP avec une guidance linguistique
Zeyi Huang Andy Zhou Zijian Lin Mu Cai Haohan Wang Yong Jae Lee
Résumé
La généralisation de domaine étudie le problème de former un modèle à partir d’échantillons provenant de plusieurs domaines (ou distributions) puis de le tester sur des échantillons issus d’un nouveau domaine inconnu. Dans cet article, nous proposons une nouvelle approche pour la généralisation de domaine qui exploite les progrès récents des grands modèles vision-langage, en particulier un modèle enseignant CLIP, afin d’entraîner un modèle plus petit capable de généraliser à des domaines non vus. La contribution technique principale réside dans une nouvelle forme de régularisation qui impose que les représentations d’images apprises par le modèle élève soient proches des représentations textuelles apprises par le modèle enseignant, obtenues en encodant les descriptions textuelles correspondant aux images. Nous introduisons deux conceptions de fonction de perte — une distance absolue et une distance relative — qui fournissent une guidance précise sur la manière dont le processus d’entraînement du modèle élève doit être régularisé. Nous évaluons notre méthode proposée, baptisée RISE (Regularized Invariance with Semantic Embeddings), sur diverses bases de données standard et montrons qu’elle surpasse plusieurs méthodes de pointe en généralisation de domaine. À notre connaissance, ce travail constitue le premier à exploiter la distillation de connaissances à l’aide d’un grand modèle vision-langage pour la généralisation de domaine. En intégrant des informations basées sur le texte, RISE améliore significativement la capacité de généralisation des modèles d’apprentissage automatique.