il y a 3 mois

SgVA-CLIP : Adaptation visuelle guidée sémantiquement des modèles vision-langage pour la classification d'images à faible exemple

Fang Peng, Xiaoshan Yang, Linhui Xiao, Yaowei Wang, Changsheng Xu

Résumé

Bien que des progrès significatifs aient été réalisés dans le domaine de l’apprentissage en peu d’exemples, la plupart des méthodes actuelles de classification d’images en peu d’exemples nécessitent un pré-entraînement supervisé sur un grand nombre d’échantillons des classes de base, ce qui limite leur capacité de généralisation dans les applications réelles. Récemment, les modèles pré-entraînés à grande échelle sur vision-langage (VLPs) ont suscité un intérêt croissant dans le cadre de l’apprentissage en peu d’exemples, car ils offrent un nouveau paradigme pour l’apprentissage de représentations visuelles transférables, en s’appuyant sur des textes facilement accessibles sur le Web. Toutefois, ces modèles VLP peuvent négliger certaines informations visuelles détaillées, difficiles à décrire par des phrases textuelles, mais essentielles pour apprendre un classificateur efficace capable de distinguer entre différentes images. Pour remédier à ce problème, nous proposons un nouveau cadre, nommé Adaptation visuelle guidée par le sens (SgVA), qui permet d’étendre efficacement les modèles pré-entraînés vision-langage afin de produire des caractéristiques visuelles adaptées discriminantes, en exploitant de manière intégrée une distillation de connaissances implicite, une perte contrastive spécifique à la vision et une perte contrastive multimodale. La distillation de connaissances implicite est conçue pour transférer les connaissances croisées de fine-grain afin de guider la mise à jour de l’adaptateur visuel. Des résultats de pointe sur 13 jeux de données démontrent que les caractéristiques visuelles adaptées complètent efficacement les caractéristiques croisées pour améliorer la classification d’images en peu d’exemples.