HyperAIHyperAI
il y a 17 jours

Video-FocalNets : modulation focal spatio-temporelle pour la reconnaissance d’actions vidéo

Syed Talal Wasim, Muhammad Uzair Khattak, Muzammal Naseer, Salman Khan, Mubarak Shah, Fahad Shahbaz Khan
Video-FocalNets : modulation focal spatio-temporelle pour la reconnaissance d’actions vidéo
Résumé

Les modèles récents de reconnaissance vidéo utilisent des architectures Transformer pour modéliser le contexte spatio-temporel à longue portée. Les conceptions de transformateurs vidéo reposent sur l’attention auto-associative, capable de capturer le contexte global mais au coût computationnel élevé. En comparaison, les approches basées sur les réseaux de convolution offrent une alternative plus efficace, tout en manquant de capacité à modéliser les dépendances à longue portée. Dans une optique d’associer les avantages des deux approches, ce travail propose Video-FocalNet, une architecture efficace et performante pour la reconnaissance vidéo, capable de modéliser à la fois le contexte local et global. Video-FocalNet repose sur une architecture de modulation focale spatio-temporelle qui inverse l’ordre des étapes d’interaction et d’agrégation de l’attention auto-associative, afin d’améliorer l’efficacité. De plus, les deux étapes — d’agrégation et d’interaction — sont implémentées à l’aide d’opérations de convolution efficaces et de multiplications élément par élément, qui sont moins coûteuses en termes computationnels que leurs homologues basées sur l’attention auto-associative pour les représentations vidéo. Nous explorons de manière exhaustive l’espace de conception de la modélisation contextuelle spatio-temporelle fondée sur la modulation focale, et démontrons que notre architecture parallèle de codage spatial et temporel constitue le choix optimal. Les modèles Video-FocalNet surpassent les meilleurs modèles basés sur les Transformers sur cinq grands jeux de données (Kinetics-400, Kinetics-600, SS-v2, Diving-48 et ActivityNet-1.3), tout en nécessitant un coût computationnel inférieur. Nos codes et modèles sont disponibles à l’adresse suivante : https://github.com/TalalWasim/Video-FocalNets.