PredRNN++ : Vers une résolution du dilemme profond dans le temps en apprentissage spatio-temporel prédictif

Nous présentons PredRNN++, un réseau récurrent amélioré pour l'apprentissage prédictif vidéo. Dans le but d'augmenter la capacité de modélisation spatio-temporelle, notre approche augmente la profondeur de transition entre les états adjacents en utilisant une nouvelle unité récurrente, nommée Causal LSTM (LSTM causale), qui réorganise les mémoires spatiales et temporelles dans un mécanisme en cascade. Cependant, il existe toujours un dilemme dans l'apprentissage prédictif vidéo : des modèles de plus en plus profonds dans le temps ont été conçus pour capturer des variations complexes, tout en introduisant davantage de difficultés dans la rétropropagation du gradient. Pour atténuer cet effet indésirable, nous proposons une architecture Gradient Highway (autoroute de gradient), qui fournit des itinéraires alternatifs plus courts pour les flux de gradient allant des sorties jusqu'aux entrées à long terme. Cette architecture fonctionne sans heurt avec les LSTM causales, permettant à PredRNN++ de capturer les dépendances à court et à long terme de manière adaptative. Nous évaluons notre modèle sur des ensembles de données vidéo synthétiques et réels, montrant sa capacité à atténuer le problème d'évanouissement du gradient et à produire des résultats prédictifs d'avant-garde, même dans des scénarios difficiles d'occlusion d'objets.