Réseaux d'images dynamiques pour la reconnaissance d'actions

Nous introduisons le concept d’image dynamique, une représentation compacte originale des vidéos, particulièrement utile pour l’analyse vidéo lorsqu’on utilise des réseaux de neurones convolutifs (CNN). L’image dynamique repose sur le principe du rank pooling et est obtenue à partir des paramètres d’une machine de classement qui encode l’évolution temporelle des cadres vidéo. Les images dynamiques sont générées en appliquant directement le rank pooling aux pixels bruts des images d’une vidéo, produisant ainsi une seule image RGB par vidéo. Cette approche, simple mais puissante, permet d’utiliser directement des modèles CNN existants sur des données vidéo, avec une adaptation fine (fine-tuning). Nous proposons un opérateur de rank pooling approximatif, efficace et performant, qui accélère considérablement le processus, de plusieurs ordres de grandeur par rapport au rank pooling classique. Grâce à notre nouvelle couche CNN de rank pooling approximatif, nous généralisons les images dynamiques aux cartes de caractéristiques dynamiques, et démontrons la force de ces nouvelles représentations sur des benchmarks standards en reconnaissance d’actions, atteignant des performances de pointe dans le domaine.