CLIP2Video : Maîtriser la recherche vidéo-texte grâce à CLIP d’image

Nous présentons le réseau CLIP2Video, conçu pour transférer de manière end-to-end un modèle pré-entraîné image-langage vers la tâche de recherche vidéo-texte. Les approches les plus avancées dans le domaine de l’apprentissage vidéo-langage visent généralement à extraire des caractéristiques spatio-temporelles vidéo ainsi que les interactions multimodales entre vidéos et langage à partir d’un grand jeu de données vidéo-texte. À la différence de ces méthodes, nous exploitons un modèle image-langage pré-entraîné, que nous simplifions en un cadre à deux étapes basé sur un apprentissage conjoint de la correspondance image-texte et du renforcement des relations temporelles entre les cadres vidéo et le texte vidéo, permettant ainsi une entraînement efficace sur des jeux de données relativement petits. Plus précisément, en s’appuyant sur les significations spatiales capturées par le modèle Contrastive Language-Image Pretraining (CLIP), notre architecture intègre un Bloc de Différence Temporelle pour modéliser les mouvements aux échelles temporelles fines des cadres vidéo, ainsi qu’un Bloc d’Alignement Temporel pour réaligner les tokens des extraits vidéo et des phrases, renforçant ainsi la corrélation multimodale. Nous menons des études d’ablation approfondies et obtenons des performances de pointe sur les principales benchmarks de recherche texte-vers-vidéo et vidéo-vers-texte, établissant de nouveaux records de précision de recherche sur MSR-VTT, MSVD et VATEX.