HyperAIHyperAI
il y a 8 jours

Intégrer les connaissances intrinsèques des modèles vision-langage avec l'adaptation de domaine non supervisée grâce à une guidance forte-faible

Thomas Westfechtel, Dexuan Zhang, Tatsuya Harada
Intégrer les connaissances intrinsèques des modèles vision-langage avec l'adaptation de domaine non supervisée grâce à une guidance forte-faible
Résumé

L’adaptation de domaine non supervisée (UDA) vise à surmonter le travail fastidieux d’étiquetage des données en exploitant un ensemble de données source étiqueté et en transférant ses connaissances vers un ensemble cible similaire mais différent. Parallèlement, les modèles vision-langage actuels présentent des capacités remarquables de prédiction zéro-shot. Dans ce travail, nous combinons les connaissances acquises grâce à l’UDA avec les connaissances intrinsèques des modèles vision-langage. Nous proposons un schéma d’apprentissage par guidage fort-faible qui utilise les prédictions zéro-shot pour faciliter l’alignement entre les ensembles source et cible. Pour le guidage fort, nous étendons l’ensemble source en intégrant les échantillons les plus confiants de l’ensemble cible. En outre, nous utilisons une perte de distillation de connaissances comme guidage faible. Le guidage fort repose sur des étiquettes dures, mais n’est appliqué qu’aux prédictions les plus confiantes issues de l’ensemble cible. À l’inverse, le guidage faible s’applique à l’ensemble du dataset, mais utilise des étiquettes souples. Ce dernier est mis en œuvre via une perte de distillation de connaissances basée sur des prédictions zéro-shot (décalées). Nous démontrons que notre méthode s’accommode avantageusement des techniques d’adaptation de prompt pour les modèles vision-langage. Des expériences et des études d’ablation menées sur trois benchmarks (OfficeHome, VisDA et DomainNet) montrent que notre approche surpasse les méthodes de pointe. Les études d’ablation supplémentaires mettent en évidence la contribution de chaque composant de notre algorithme.

Intégrer les connaissances intrinsèques des modèles vision-langage avec l'adaptation de domaine non supervisée grâce à une guidance forte-faible | Articles de recherche récents | HyperAI