Réexamen de la modélisation temporelle pour le transfert de connaissances image-vidéo basé sur CLIP

Les modèles pré-entraînés image-texte, tels que CLIP, ont démontré une capacité remarquable à acquérir des connaissances multimodales générales à partir d'importants jeux de données d'images et de textes appariés, attirant ainsi un intérêt croissant en raison de leur potentiel à améliorer l'apprentissage des représentations visuelles dans le domaine vidéo. Dans ce travail, partant du modèle CLIP, nous réexaminons la modélisation temporelle dans le cadre du transfert de connaissances d'image vers vidéo, qui constitue un enjeu central pour étendre les modèles pré-entraînés image-texte au domaine vidéo. Nous constatons que les mécanismes actuels de modélisation temporelle sont conçus soit pour des tâches dominées par le sens sémantique élevé (par exemple, la récupération), soit pour des tâches dominées par les motifs visuels de bas niveau (par exemple, la reconnaissance), et échouent à fonctionner efficacement dans les deux cas simultanément. La difficulté principale réside dans la modélisation des dépendances temporelles tout en exploitant à la fois les connaissances de haut niveau et de bas niveau présentes dans le modèle CLIP. Pour relever ce défi, nous proposons le Réseau auxiliaire Spatio-Temporel (STAN) — un mécanisme de modélisation temporelle simple et efficace permettant d’étendre le modèle CLIP à diverses tâches vidéo. Plus précisément, afin de réaliser le transfert des connaissances à la fois de bas niveau et de haut niveau, STAN adopte une architecture en branches avec des modules spatio-temporels décomposés, permettant de contextualiser de manière spatio-temporelle les caractéristiques CLIP à plusieurs niveaux. Nous évaluons notre méthode sur deux tâches vidéo représentatives : la récupération vidéo-texte et la reconnaissance vidéo. Des expériences étendues démontrent l’avantage de notre modèle par rapport aux méthodes de pointe sur divers jeux de données, notamment MSR-VTT, DiDeMo, LSMDC, MSVD, Kinetics-400 et Something-Something-V2. Le code source sera disponible à l’adresse suivante : https://github.com/farewellthree/STAN