HyperAIHyperAI

Command Palette

Search for a command to run...

L’attention espace-temps est-elle tout ce dont on a besoin pour la compréhension vidéo ?

Gedas Bertasius Heng Wang Lorenzo Torresani

Résumé

Nous présentons une approche sans convolution pour la classification vidéo, fondée exclusivement sur l’attention auto-associative dans l’espace et le temps. Notre méthode, baptisée « TimeSformer », adapte l’architecture standard du Transformer à la vidéo en permettant l’apprentissage de caractéristiques spatio-temporelles directement à partir d’une séquence de patches au niveau des trames. Notre étude expérimentale compare différentes architectures d’attention auto-associative et suggère que l’« attention divisée », dans laquelle l’attention temporelle et l’attention spatiale sont appliquées séparément au sein de chaque bloc, conduit à la meilleure précision de classification vidéo parmi les choix d’architecture étudiés. Malgré une conception radicalement nouvelle, TimeSformer atteint des résultats de pointe sur plusieurs benchmarks de reconnaissance d’actions, notamment la précision la plus élevée rapportée sur Kinetics-400 et Kinetics-600. Enfin, par rapport aux réseaux convolutionnels 3D, notre modèle s’entraîne plus rapidement, atteint une efficacité de test nettement supérieure (avec une légère baisse de précision) et peut être appliqué à des extraits vidéo bien plus longs (dépassant une minute). Le code et les modèles sont disponibles à l’adresse : https://github.com/facebookresearch/TimeSformer.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp