HyperAIHyperAI
il y a 17 jours

MotionSqueeze : Apprentissage des caractéristiques de mouvement neurales pour la compréhension vidéo

Heeseung Kwon, Manjin Kim, Suha Kwak, Minsu Cho
MotionSqueeze : Apprentissage des caractéristiques de mouvement neurales pour la compréhension vidéo
Résumé

Le mouvement joue un rôle fondamental dans la compréhension des vidéos, et la plupart des modèles neuronaux d’avant-garde pour la classification vidéo intègrent des informations relatives au mouvement, généralement à l’aide de flux optiques extraits par une méthode externe et préexistante. Étant donné que les flux optiques calculés cadre par cadre nécessitent des ressources computationnelles importantes, l’intégration de ces informations de mouvement reste une goulée d’air majeure en termes de coût computationnel pour la compréhension des vidéos. Dans ce travail, nous remplaçons l’approche externe et coûteuse des flux optiques par une apprentissage interne et léger des caractéristiques de mouvement. Nous proposons un module neuronal entraînable, nommé MotionSqueeze, pour une extraction efficace des caractéristiques de mouvement. Inséré au sein de tout réseau neuronal, ce module apprend à établir des correspondances entre les cadres et à les transformer en caractéristiques de mouvement, qui peuvent être directement transmises à la couche suivante pour améliorer la prédiction. Nous démontrons que la méthode proposée permet d’obtenir une amélioration significative sur quatre benchmarks standards pour la reconnaissance d’actions, avec un coût additionnel négligeable, surpassant ainsi l’état de l’art sur les jeux de données Something-Something-V1 et V2.

MotionSqueeze : Apprentissage des caractéristiques de mouvement neurales pour la compréhension vidéo | Articles de recherche récents | HyperAI