CLIP2TV : Aligner, Apparier et Distiller pour la Recherche Vidéo-Texte

Les cadres modernes de recherche vidéo-texte se composent essentiellement de trois composants : un encodeur vidéo, un encodeur texte et une tête de similarité. Grâce aux progrès réalisés dans l'apprentissage des représentations visuelles et textuelles, les encodeurs basés sur les transformateurs ainsi que les méthodes de fusion ont également été adoptés dans le domaine de la recherche vidéo-texte. Dans ce rapport, nous présentons CLIP2TV, dans le but d’explorer les éléments clés présents dans les méthodes basées sur les transformateurs. Pour atteindre cet objectif, nous revisitons tout d’abord certaines travaux récents sur l’apprentissage multimodal, puis introduisons plusieurs techniques dans le cadre de la recherche vidéo-texte, avant d’évaluer celles-ci à l’aide d’expériences étendues dans différentes configurations. Notamment, CLIP2TV atteint un score de 52,9@R1 sur le jeu de données MSR-VTT, surpassant ainsi le résultat SOTA précédent de 4,1 %.