HyperAIHyperAI
il y a 17 jours

Attention de mélange espace-temps pour les Transformers vidéo

Adrian Bulat, Juan-Manuel Perez-Rua, Swathikiran Sudhakaran, Brais Martinez, Georgios Tzimiropoulos
Attention de mélange espace-temps pour les Transformers vidéo
Résumé

Ce papier porte sur la reconnaissance vidéo utilisant des Transformers. Des tentatives récentes dans ce domaine ont démontré des résultats prometteurs en termes de précision de reconnaissance, mais elles ont également été montrées, dans de nombreux cas, induire des surcharges computationnelles importantes en raison de la modélisation supplémentaire de l'information temporelle. Dans ce travail, nous proposons un modèle Video Transformer dont la complexité croît de manière linéaire avec le nombre de cadres dans la séquence vidéo, et qui n'entraîne donc aucune surcharge par rapport à un modèle Transformer basé sur une image. Pour atteindre cet objectif, notre modèle effectue deux approximations de l'attention espace-temps complète utilisée dans les Video Transformers : (a) il restreint l'attention temporelle à une fenêtre temporelle locale et exploite la profondeur du Transformer pour obtenir une couverture temporelle complète de la séquence vidéo ; (b) il utilise un mélange efficace espace-temps pour effectuer une attention conjointe sur les positions spatiales et temporelles, sans engendrer de coût supplémentaire par rapport à un modèle d'attention uniquement spatiale. Nous montrons également comment intégrer deux mécanismes très légers d'attention globale uniquement temporelle, qui apportent des améliorations supplémentaires de précision à un coût computationnel minimal. Nous démontrons que notre modèle atteint une très haute précision de reconnaissance sur les jeux de données vidéo les plus populaires, tout en étant significativement plus efficace que d'autres modèles Video Transformer. Le code sera rendu disponible.