Command Palette
Search for a command to run...
Réseau DenseImage : Codage et Compréhension de l'Évolution Spatio-Temporelle Vidéo
Réseau DenseImage : Codage et Compréhension de l'Évolution Spatio-Temporelle Vidéo
Xiaokai Chen Ke Gao
Résumé
De nombreuses approches de pointe pour la compréhension des vidéos sont gourmandes en données et chronophages, ne parvenant pas à capturer efficacement l'essence de l'évolution spatio-temporelle. Les dernières recherches montrent que les réseaux CNN peuvent raisonner sur les relations statiques entre les entités dans les images. Pour exploiter davantage leur capacité à raisonner sur l'évolution dynamique, nous introduisons un nouveau module de réseau appelé DenseImage Network (DIN), avec deux contributions principales :1) Une nouvelle représentation compacte des vidéos qui distille leur évolution spatio-temporelle significative dans une matrice appelée DenseImage, optimisée pour une encodage vidéo efficace.2) Une stratégie d'apprentissage simple mais puissante basée sur DenseImage et un réseau CNN préservant l'ordre temporel est proposée pour la compréhension des vidéos. Cette stratégie inclut une contrainte de corrélation temporelle locale qui capture l'évolution temporelle à différentes échelles de temps avec des largeurs de filtres variées.Des expériences approfondies sur deux benchmarks récents et difficiles démontrent que notre DenseImage Network peut capturer précisément l'évolution spatio-temporelle commune entre des actions similaires, même en présence de variations visuelles importantes ou d'échelles de temps différentes. De plus, nous obtenons des résultats d'état de l'art en reconnaissance d'actions et de gestes avec un coût en temps et en mémoire beaucoup plus faible, ce qui indique son potentiel considérable dans la représentation et la compréhension des vidéos.