HyperAIHyperAI

Command Palette

Search for a command to run...

Savoir quoi, où et quand regarder : Modélisation efficace des actions vidéo avec une attention

Juan-Manuel Perez-Rua Brais Martinez Xiatian Zhu Antoine Toisoul Victor Escorcia Tao Xiang

Résumé

La modélisation attentive des vidéos est essentielle pour la reconnaissance d’actions dans des vidéos non contraintes, en raison de l’abondance d’informations riches mais redondantes à la fois dans l’espace et le temps. Toutefois, l’introduction de l’attention dans un réseau neuronal profond pour la reconnaissance d’actions soulève deux défis majeurs. Premièrement, un module d’attention efficace doit apprendre ce qu’il faut focaliser (objets et leurs motifs locaux de mouvement), où (dans l’espace) et quand (dans le temps). Deuxièmement, un module d’attention vidéo doit être efficace, car les modèles actuels de reconnaissance d’actions souffrent déjà d’un coût computationnel élevé. Pour relever ces deux défis, nous proposons un nouveau module d’attention vidéo What-Where-When (W3). À la différence des approches existantes, notre module W3 modélise conjointement les trois dimensions de l’attention vidéo. De manière cruciale, il est extrêmement efficace grâce à une factorisation des données de caractéristiques vidéo de haute dimension en espaces significatifs de faible dimension (un vecteur 1D canal pour « what », et des tenseurs 2D spatiaux pour « where »), suivie d’un raisonnement d’attention temporelle légère. Des expérimentations étendues montrent que notre modèle d’attention apporte des améliorations significatives aux modèles existants de reconnaissance d’actions, atteignant de nouveaux records sur plusieurs benchmarks.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp