Décomposition du mouvement et du contenu pour la prédiction de séquences vidéo naturelles

Nous proposons un réseau neuronal profond pour la prédiction de futurs cadres dans des séquences vidéo naturelles. Pour gérer efficacement l'évolution complexe des pixels dans les vidéos, nous suggérons de décomposer le mouvement et le contenu, deux composants clés générant la dynamique dans les vidéos. Notre modèle est basé sur un réseau neuronal convolutif (CNN) encodeur-décodeur et sur un LSTM convolutif pour la prédiction au niveau des pixels, qui capturent indépendamment la disposition spatiale d'une image et les dynamiques temporelles correspondantes. En modélisant indépendamment le mouvement et le contenu, la prédiction du cadre suivant se réduit à convertir les caractéristiques de contenu extraites en celles du prochain cadre de contenu par les caractéristiques de mouvement identifiées, ce qui simplifie la tâche de prédiction. Notre modèle peut être formé de manière end-to-end sur plusieurs pas de temps, et apprend naturellement à décomposer le mouvement et le contenu sans entraînement séparé. Nous évaluons l'architecture du réseau proposé sur des vidéos d'activités humaines en utilisant les jeux de données KTH, Weizmann action et UCF-101. Nous montrons des performances d'état de l'art en comparaison avec les approches récentes. À notre connaissance, c'est la première architecture de réseau entièrement formable end-to-end avec une séparation du mouvement et du contenu pour modéliser les dynamiques spatio-temporelles pour la prédiction future au niveau des pixels dans des vidéos naturelles.