PredRNN : réseaux de neurones récurrents pour l'apprentissage prédictif utilisant des LSTMs spatiotemporels

L’apprentissage prédictif des séquences spatiotemporales vise à générer des images futures à partir d’images historiques, où les aspects spatiaux et les variations temporelles constituent deux structures essentielles. Ce papier modélise ces structures en proposant un réseau de neurones récurrents prédictif (PredRNN). Cette architecture s’inspire de l’idée selon laquelle l’apprentissage prédictif spatiotemporel devrait mémoriser à la fois les apparences spatiales et les variations temporelles au sein d’un même espace de mémoire. Plus précisément, les états de mémoire ne sont plus contraints à rester à l’intérieur de chaque unité LSTM. À la place, ils sont autorisés à se propager selon deux directions : verticalement, à travers les couches empilées de réseaux récurrents, et horizontalement, à travers tous les états du réseau récurrent. Le cœur de ce réseau est une nouvelle unité LSTM spatiotemporelle (ST-LSTM), capable d’extraire et de mémoriser simultanément des représentations spatiales et temporelles. PredRNN atteint des performances prédictives de pointe sur trois jeux de données vidéo, et constitue un cadre plus général, facilement extensible à d’autres tâches d’apprentissage prédictif grâce à son intégration avec d’autres architectures.