HyperAIHyperAI

Command Palette

Search for a command to run...

Transformateur vidéo auto-supervisé

Kanchana Ranasinghe Muzammal Naseer Salman Khan Fahad Shahbaz Khan Michael Ryoo

Résumé

Dans cet article, nous proposons une méthode d'apprentissage auto-supervisé pour les transformateurs vidéo basée sur des données vidéo non étiquetées. À partir d'une vidéo donnée, nous générons des vues spatio-temporelles locales et globales aux tailles spatiales et aux fréquences d'images variables. Notre objectif auto-supervisé vise à aligner les caractéristiques de ces différentes vues représentant la même vidéo, tout en étant invariant aux variations spatio-temporelles des actions. À notre connaissance, l'approche proposée est la première à réduire la dépendance aux exemples négatifs ou aux mémoires dédiées dans les transformateurs vidéo auto-supervisés (SVT). En outre, grâce à la flexibilité des modèles Transformer, le SVT permet un traitement vidéo lent-rapide au sein d'une seule architecture, grâce à une encodage positionnel dynamique, et prend en charge la modélisation des relations à long terme le long des dimensions spatio-temporelles. Notre méthode obtient de bons résultats sur quatre benchmarks de reconnaissance d'actions (Kinetics-400, UCF-101, HMDB-51 et SSv2), tout en convergeant plus rapidement avec de petits tailles de batch. Code : https://git.io/J1juJ


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp