HyperAIHyperAI

Command Palette

Search for a command to run...

TempCLR : Représentation d'alignement temporel avec apprentissage par contraste

Yuncong Yang† Jiawei Ma† Shiyuan Huang Long Chen Xudong Lin Guangxing Han Shih-Fu Chang

Résumé

L'apprentissage de la représentation vidéo a connu un succès dans l'entraînement préalable des paires vidéo-texte pour le transfert à zéro-shot, où chaque phrase est entraînée pour être proche des clips vidéo associés dans un espace de caractéristiques commun. Pour les vidéos longues, étant donné un paragraphe de description où les phrases décrivent différents segments de la vidéo, en faisant correspondre toutes les paires phrase-clip, le paragraphe et la vidéo complète sont alignés implicitement. Cependant, une telle comparaison au niveau des unités peut ignorer le contexte temporel global, ce qui limite inévitablement la capacité de généralisation. Dans cet article, nous proposons un cadre d'apprentissage par contraste appelé TempCLR pour comparer explicitement la vidéo complète et le paragraphe. Comme la vidéo/le paragraphe est formulé comme une séquence de clips/phrases, sous la contrainte de leur ordre temporel, nous utilisons l'alignement dynamique temporel (dynamic time warping) pour calculer le coût cumulatif minimal sur les paires phrase-clip comme distance au niveau de la séquence. Pour explorer les dynamiques temporelles, nous rompons la cohérence de la succession temporelle en mélangeant les clips vidéo selon une granularité temporelle. Ensuite, nous obtenons les représentations pour les clips/phrases qui perçoivent l'information temporelle et facilitent ainsi l'alignement de la séquence. Outre l'entraînement préalable sur la vidéo et le paragraphe, notre approche peut également se généraliser à l'appariement entre instances vidéo. Nous évaluons notre approche sur la recherche de vidéos, la localisation des étapes d'action et la reconnaissance d'actions à faible supervision (few-shot action recognition), et obtenons une amélioration constante des performances sur ces trois tâches. Des études d'ablation détaillées sont fournies pour justifier la conception de l'approche.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp