HyperAIHyperAI
il y a 8 jours

Adaptation de domaine non supervisée tirant parti de l'apprentissage préalable vision-langage

{Wenlve Zhou and Zhiheng Zhou}
Résumé

Ce papier aborde deux défis essentiels dans le cadre de l’adaptation de domaine non supervisée (UDA), en mettant l’accent sur l’exploitation du potentiel des modèles de pré-entraînement vision-langage (VLP). Premièrement, l’UDA s’est principalement appuyée sur des modèles pré-entraînés sur ImageNet. Toutefois, le potentiel des modèles VLP dans le contexte de l’UDA reste largement inexploré. Les représentations riches offertes par les modèles VLP présentent un grand potentiel pour améliorer les performances des tâches d’UDA. Pour répondre à ce défi, nous proposons une méthode originale nommée Distillation de Connaissances Croisée (CMKD), qui utilise les modèles VLP comme modèles enseignants afin de guider le processus d’apprentissage dans le domaine cible, atteignant ainsi des performances de pointe. Deuxièmement, les paradigmes actuels d’UDA nécessitent l’entraînement de modèles distincts pour chaque tâche, ce qui entraîne un surcroît important de mémoire et rend le déploiement des modèles peu pratique à mesure que le nombre de tâches de transfert augmente. Pour surmonter ce problème, nous introduisons une technique appelée Entraînement Épars à Résidus (RST), qui exploite les avantages du pré-entraînement étendu des modèles VLP, permettant d’obtenir des performances comparables au fine-tuning tout en ajustant uniquement une faible proportion des paramètres du modèle VLP (environ 0,1 % à 0,5 %). En combinant CMKD et RST, nous proposons une solution globale qui exploite efficacement les modèles VLP pour les tâches d’UDA tout en réduisant considérablement la charge mémoire liée au déploiement des modèles. Par ailleurs, CMKD peut servir de base de référence lorsqu’il est combiné à d’autres méthodes telles que FixMatch, permettant d’améliorer davantage les performances en UDA. Notre méthode propose des résultats supérieurs à ceux des techniques existantes sur des benchmarks standards. Le code associé sera disponible à l’adresse suivante : https://github.com/Wenlve-Zhou/VLP-UDA.

Adaptation de domaine non supervisée tirant parti de l'apprentissage préalable vision-langage | Articles de recherche récents | HyperAI