HyperAIHyperAI

Command Palette

Search for a command to run...

Attention de mélange espace-temps pour les Transformers vidéo

Adrian Bulat Juan-Manuel Perez-Rua Swathikiran Sudhakaran Brais Martinez Georgios Tzimiropoulos

Résumé

Ce papier porte sur la reconnaissance vidéo utilisant des Transformers. Des tentatives récentes dans ce domaine ont démontré des résultats prometteurs en termes de précision de reconnaissance, mais elles ont également été montrées, dans de nombreux cas, induire des surcharges computationnelles importantes en raison de la modélisation supplémentaire de l'information temporelle. Dans ce travail, nous proposons un modèle Video Transformer dont la complexité croît de manière linéaire avec le nombre de cadres dans la séquence vidéo, et qui n'entraîne donc aucune surcharge par rapport à un modèle Transformer basé sur une image. Pour atteindre cet objectif, notre modèle effectue deux approximations de l'attention espace-temps complète utilisée dans les Video Transformers : (a) il restreint l'attention temporelle à une fenêtre temporelle locale et exploite la profondeur du Transformer pour obtenir une couverture temporelle complète de la séquence vidéo ; (b) il utilise un mélange efficace espace-temps pour effectuer une attention conjointe sur les positions spatiales et temporelles, sans engendrer de coût supplémentaire par rapport à un modèle d'attention uniquement spatiale. Nous montrons également comment intégrer deux mécanismes très légers d'attention globale uniquement temporelle, qui apportent des améliorations supplémentaires de précision à un coût computationnel minimal. Nous démontrons que notre modèle atteint une très haute précision de reconnaissance sur les jeux de données vidéo les plus populaires, tout en étant significativement plus efficace que d'autres modèles Video Transformer. Le code sera rendu disponible.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp