il y a 17 jours

CLIP-ViP : Adapter le modèle pré-entraîné image-texte à l’alignement de représentations vidéo-langage

Hongwei Xue, Yuchong Sun, Bei Liu, Jianlong Fu, Ruihua Song, Houqiang Li, Jiebo Luo

Résumé

Les modèles pré-entraînés image-texte, tels que CLIP, ont démontré une capacité remarquable à apprendre des représentations vision-langage à partir d’énormes quantités de données image-texte collectées sur le web. À la lumière des caractéristiques visuelles bien apprises, certaines recherches existantes ont transféré les représentations d’image vers le domaine vidéo, obtenant ainsi de bons résultats. Toutefois, la manière d’utiliser un modèle pré-entraîné image-langage (par exemple CLIP) pour un pré-entraînement vidéo-langage (post-pré-entraînement) reste encore peu explorée. Dans ce travail, nous examinons deux questions : 1) quels sont les facteurs entravant le post-pré-entraînement de CLIP pour améliorer davantage ses performances sur les tâches vidéo-langage ? et 2) comment atténuer l’impact de ces facteurs ? À travers une série d’expériences comparatives et d’analyses, nous constatons que l’échelle des données et l’écart de domaine entre les sources linguistiques exercent une influence significative. Inspirés par ces observations, nous proposons une méthode d’apprentissage cross-modale omnifonctionnelle, intégrant un mécanisme de proxy vidéo basé sur CLIP, nommée CLIP-ViP. Les résultats étendus montrent que notre approche améliore considérablement les performances de CLIP sur la tâche de recherche vidéo-texte. De plus, notre modèle atteint des résultats de l’état de l’art (SOTA) sur plusieurs jeux de données, notamment MSR-VTT, DiDeMo, LSMDC et ActivityNet. Nous mettrons à disposition notre code ainsi que les modèles pré-entraînés CLIP-ViP à l’adresse suivante : https://github.com/microsoft/XPretrain/tree/main/CLIP-ViP.