HyperAIHyperAI

Command Palette

Search for a command to run...

Réseau vidéo Transformer

Daniel Neimark Omri Bar Maya Zohar Dotan Asselmann

Résumé

Cet article présente VTN, un cadre fondé sur les transformateurs pour la reconnaissance vidéo. Inspiré des récents progrès réalisés dans le domaine des vision transformers, nous abandonnons l'approche classique en reconnaissance d'actions vidéo, basée sur les réseaux de convolution 3D (3D ConvNets), et proposons une méthode qui classe les actions en effectuant une attention sur l'ensemble de l'information séquentielle de la vidéo. Notre approche est générique et s'appuie sur n'importe quel réseau spatial 2D donné. En termes de temps d'exécution réel (wall runtime), elle s'entraîne 16,1 fois plus vite et s'exécute 5,1 fois plus vite en phase d'inférence, tout en maintenant une précision compétitive par rapport aux méthodes de pointe actuelles. Elle permet une analyse complète de la vidéo en une seule passe end-to-end, tout en nécessitant 1,5 fois moins de GFLOPs. Nous rapportons des résultats compétitifs sur Kinetics-400 et présentons une étude d'ablation des propriétés de VTN ainsi qu'un examen du compromis entre précision et vitesse d'inférence. Nous espérons que notre approche pourra servir de nouvelle référence et ouvrir une nouvelle voie de recherche dans le domaine de la reconnaissance vidéo. Le code et les modèles sont disponibles à l'adresse suivante : https://github.com/bomri/SlowFast/blob/master/projects/vtn/README.md


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Réseau vidéo Transformer | Articles | HyperAI