Predcnn : apprentissage prédictif basé sur des convolutions en cascade
La prédiction des trames futures dans les vidéos reste un problème non résolu mais extrêmement complexe. Les modèles récurrents dominants souffrent d’une consommation mémoire élevée et d’un coût computationnel important, tandis que les modèles convolutionnels peinent à capturer efficacement les dépendances temporelles entre trames vidéo consécutives. Pour relever ce défi, nous introduisons une architecture entièrement basée sur les réseaux de neurones convolutifs, appelée PredCNN, qui modélise les dépendances entre la trame suivante et l’entrée vidéo séquentielle. Inspirés par l’idée centrale des modèles récurrents, selon laquelle les états passés subissent plus d’opérations de transition que les états futurs, nous concevons une unité multiplicative en cascade (CMU) qui attribue relativement plus d’opérations aux trames vidéo antérieures. Cette nouvelle unité permet à PredCNN de prédire les données spatio-temporelles futures sans recourir à des structures récurrentes, ce qui facilite la propagation des gradients et permet une optimisation entièrement parallélisée. Nous démontrons que PredCNN surpasser les modèles récurrents d’avant-garde en prédiction vidéo sur le jeu de données standard Moving MNIST ainsi que sur deux jeux de données exigeants de prédiction de flux de foule, tout en offrant un temps d’entraînement plus rapide et une empreinte mémoire réduite.