Command Palette
Search for a command to run...
Savoir quoi, où et quand regarder : Modélisation efficace des actions vidéo avec une attention
Savoir quoi, où et quand regarder : Modélisation efficace des actions vidéo avec une attention
Juan-Manuel Perez-Rua Brais Martinez Xiatian Zhu Antoine Toisoul Victor Escorcia Tao Xiang
Résumé
La modélisation attentive des vidéos est essentielle pour la reconnaissance d’actions dans des vidéos non contraintes, en raison de l’abondance d’informations riches mais redondantes à la fois dans l’espace et le temps. Toutefois, l’introduction de l’attention dans un réseau neuronal profond pour la reconnaissance d’actions soulève deux défis majeurs. Premièrement, un module d’attention efficace doit apprendre ce qu’il faut focaliser (objets et leurs motifs locaux de mouvement), où (dans l’espace) et quand (dans le temps). Deuxièmement, un module d’attention vidéo doit être efficace, car les modèles actuels de reconnaissance d’actions souffrent déjà d’un coût computationnel élevé. Pour relever ces deux défis, nous proposons un nouveau module d’attention vidéo What-Where-When (W3). À la différence des approches existantes, notre module W3 modélise conjointement les trois dimensions de l’attention vidéo. De manière cruciale, il est extrêmement efficace grâce à une factorisation des données de caractéristiques vidéo de haute dimension en espaces significatifs de faible dimension (un vecteur 1D canal pour « what », et des tenseurs 2D spatiaux pour « where »), suivie d’un raisonnement d’attention temporelle légère. Des expérimentations étendues montrent que notre modèle d’attention apporte des améliorations significatives aux modèles existants de reconnaissance d’actions, atteignant de nouveaux records sur plusieurs benchmarks.