HyperAIHyperAI
il y a 11 jours

SILC : Amélioration du préentraînement vision-langage grâce à la distillation auto-supervisée

Muhammad Ferjad Naeem, Yongqin Xian, Xiaohua Zhai, Lukas Hoyer, Luc Van Gool, Federico Tombari
SILC : Amélioration du préentraînement vision-langage grâce à la distillation auto-supervisée
Résumé

La pré-formation image-text sur des jeux de données à grande échelle de légendes d’images est devenue la méthode standard pour les modèles de classification et de recherche à vocabulaire ouvert, grâce au succès de CLIP et de ses variantes. Plusieurs travaux ont également exploité les caractéristiques de CLIP pour des tâches de prédiction dense et ont observé l’émergence de capacités en ensemble ouvert. Toutefois, l’objectif contrastif utilisé par ces modèles se concentre uniquement sur l’alignement image-texte et ne pousse pas efficacement l’apprentissage des caractéristiques d’image pour les tâches de prédiction dense. Dans ce travail, nous introduisons SILC, un cadre novateur pour la pré-formation vision-langage. SILC améliore l’apprentissage contrastif image-texte grâce à l’ajout simple d’un apprentissage de correspondance locale-vers-globale par auto-distillation. Nous montrons que la distillation des caractéristiques locales d’image à partir d’un modèle enseignant à moyenne mobile exponentielle (EMA) améliore significativement les performances du modèle sur des tâches de prédiction dense telles que la détection et la segmentation, tout en apportant également des gains sur des tâches au niveau de l’image, comme la classification et la recherche. Les modèles SILC établissent un nouveau record sur la classification zéro-shot, la classification à faible nombre d’exemples (few-shot), la recherche d’images et de textes, la segmentation zéro-shot et la segmentation à vocabulaire ouvert. Nous démontrons également que les caractéristiques SILC apportent des bénéfices considérables à la détection à vocabulaire ouvert, à la génération de légendes et à la réponse à des questions visuelles.

SILC : Amélioration du préentraînement vision-langage grâce à la distillation auto-supervisée | Articles de recherche récents | HyperAI