HyperAIHyperAI

Command Palette

Search for a command to run...

Réseaux d'images dynamiques pour la reconnaissance d'actions

Stephen Gould Hakan Bilen Efstratios Gavves Andrea Vedaldi Basura Fernando

Résumé

Nous introduisons le concept d’image dynamique, une représentation compacte originale des vidéos, particulièrement utile pour l’analyse vidéo lorsqu’on utilise des réseaux de neurones convolutifs (CNN). L’image dynamique repose sur le principe du rank pooling et est obtenue à partir des paramètres d’une machine de classement qui encode l’évolution temporelle des cadres vidéo. Les images dynamiques sont générées en appliquant directement le rank pooling aux pixels bruts des images d’une vidéo, produisant ainsi une seule image RGB par vidéo. Cette approche, simple mais puissante, permet d’utiliser directement des modèles CNN existants sur des données vidéo, avec une adaptation fine (fine-tuning). Nous proposons un opérateur de rank pooling approximatif, efficace et performant, qui accélère considérablement le processus, de plusieurs ordres de grandeur par rapport au rank pooling classique. Grâce à notre nouvelle couche CNN de rank pooling approximatif, nous généralisons les images dynamiques aux cartes de caractéristiques dynamiques, et démontrons la force de ces nouvelles représentations sur des benchmarks standards en reconnaissance d’actions, atteignant des performances de pointe dans le domaine.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp