TempCLR : Représentation d'alignement temporel avec apprentissage par contraste

L'apprentissage de la représentation vidéo a connu un succès dans l'entraînement préalable des paires vidéo-texte pour le transfert à zéro-shot, où chaque phrase est entraînée pour être proche des clips vidéo associés dans un espace de caractéristiques commun. Pour les vidéos longues, étant donné un paragraphe de description où les phrases décrivent différents segments de la vidéo, en faisant correspondre toutes les paires phrase-clip, le paragraphe et la vidéo complète sont alignés implicitement. Cependant, une telle comparaison au niveau des unités peut ignorer le contexte temporel global, ce qui limite inévitablement la capacité de généralisation. Dans cet article, nous proposons un cadre d'apprentissage par contraste appelé TempCLR pour comparer explicitement la vidéo complète et le paragraphe. Comme la vidéo/le paragraphe est formulé comme une séquence de clips/phrases, sous la contrainte de leur ordre temporel, nous utilisons l'alignement dynamique temporel (dynamic time warping) pour calculer le coût cumulatif minimal sur les paires phrase-clip comme distance au niveau de la séquence. Pour explorer les dynamiques temporelles, nous rompons la cohérence de la succession temporelle en mélangeant les clips vidéo selon une granularité temporelle. Ensuite, nous obtenons les représentations pour les clips/phrases qui perçoivent l'information temporelle et facilitent ainsi l'alignement de la séquence. Outre l'entraînement préalable sur la vidéo et le paragraphe, notre approche peut également se généraliser à l'appariement entre instances vidéo. Nous évaluons notre approche sur la recherche de vidéos, la localisation des étapes d'action et la reconnaissance d'actions à faible supervision (few-shot action recognition), et obtenons une amélioration constante des performances sur ces trois tâches. Des études d'ablation détaillées sont fournies pour justifier la conception de l'approche.