CLIP4Clip : Une étude empirique de CLIP pour la recherche de segments vidéo en bout à bout

La recherche vidéo-texte joue un rôle essentiel dans les recherches multimodales et est largement utilisée dans de nombreuses applications web du monde réel. Le modèle pré-entraîné image-langage CLIP (Contrastive Language-Image Pre-training) a démontré la puissance de l’apprentissage des concepts visuels à partir de jeux de données image-texte collectés sur le web. Dans cet article, nous proposons un modèle CLIP4Clip afin de transférer, de manière end-to-end, les connaissances du modèle CLIP vers la recherche vidéo-langage. À travers des études empiriques, plusieurs questions sont explorées : 1) Les caractéristiques d’image sont-elles suffisantes pour la recherche vidéo-texte ? 2) Quel est l’impact d’un post-entraînement sur un grand jeu de données vidéo-texte basé sur CLIP sur les performances ? 3) Quel est le mécanisme pratique pour modéliser la dépendance temporelle entre les trames vidéo ? 4) Quelle est la sensibilité des hyperparamètres du modèle sur la tâche de recherche vidéo-texte ? Les résultats expérimentaux étendus montrent que le modèle CLIP4Clip, transféré à partir de CLIP, atteint des résultats SOTA (state-of-the-art) sur divers jeux de données de recherche vidéo-texte, notamment MSR-VTT, MSVC, LSMDC, ActivityNet et DiDeMo. Nous mettons notre code à disposition à l’adresse suivante : https://github.com/ArrowLuo/CLIP4Clip.