il y a 6 mois

Résumé

La modélisation attentive des vidéos est essentielle pour la reconnaissance d’actions dans des vidéos non contraintes, en raison de l’abondance d’informations riches mais redondantes à la fois dans l’espace et le temps. Toutefois, l’introduction de l’attention dans un réseau neuronal profond pour la reconnaissance d’actions soulève deux défis majeurs. Premièrement, un module d’attention efficace doit apprendre ce qu’il faut focaliser (objets et leurs motifs locaux de mouvement), où (dans l’espace) et quand (dans le temps). Deuxièmement, un module d’attention vidéo doit être efficace, car les modèles actuels de reconnaissance d’actions souffrent déjà d’un coût computationnel élevé. Pour relever ces deux défis, nous proposons un nouveau module d’attention vidéo What-Where-When (W3). À la différence des approches existantes, notre module W3 modélise conjointement les trois dimensions de l’attention vidéo. De manière cruciale, il est extrêmement efficace grâce à une factorisation des données de caractéristiques vidéo de haute dimension en espaces significatifs de faible dimension (un vecteur 1D canal pour « what », et des tenseurs 2D spatiaux pour « where »), suivie d’un raisonnement d’attention temporelle légère. Des expérimentations étendues montrent que notre modèle d’attention apporte des améliorations significatives aux modèles existants de reconnaissance d’actions, atteignant de nouveaux records sur plusieurs benchmarks.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Compréhension Vidéo

Reconnaissance D'action

Traitement Vidéo

Vision Par Ordinateur

Tâche

Juan-Manuel Perez-Rua Brais Martinez Xiatian Zhu Antoine Toisoul Victor Escorcia Tao Xiang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Compréhension Vidéo

Reconnaissance D'action

Traitement Vidéo

Vision Par Ordinateur

Tâche

Juan-Manuel Perez-Rua Brais Martinez Xiatian Zhu Antoine Toisoul Victor Escorcia Tao Xiang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Savoir quoi, où et quand regarder : Modélisation efficace des actions vidéo avec une attention | Articles | HyperAI

Command Palette

Savoir quoi, où et quand regarder : Modélisation efficace des actions vidéo avec une attention

Juan-Manuel Perez-Rua Brais Martinez Xiatian Zhu Antoine Toisoul Victor Escorcia Tao Xiang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Savoir quoi, où et quand regarder : Modélisation efficace des actions vidéo avec une attention

Juan-Manuel Perez-Rua Brais Martinez Xiatian Zhu Antoine Toisoul Victor Escorcia Tao Xiang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Savoir quoi, où et quand regarder : Modélisation efficace des actions vidéo avec une attention

Juan-Manuel Perez-Rua Brais Martinez Xiatian Zhu Antoine Toisoul Victor Escorcia Tao Xiang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters