Réseaux de Neurones Récursifs Pliés pour la Prédiction Vidéo Future

La prédiction de vidéos futures est un problème mal posé en vision par ordinateur qui a récemment suscité beaucoup d'attention. Ses principaux défis sont la grande variabilité du contenu vidéo, la propagation des erreurs dans le temps et la non-spécificité des images futures : étant donné une séquence d'images passées, il existe une distribution continue de futurs possibles. Cette étude introduit les unités récurrentes à portes bijectives (bijective Gated Recurrent Units), un double mappage entre l'entrée et la sortie d'une couche GRU. Cela permet de créer des auto-encodeurs récurrents avec un partage d'état entre l'encodeur et le décodeur, stratifiant ainsi la représentation de la séquence et aidant à prévenir les problèmes de capacité. Nous montrons comment, avec cette topologie, seul l'encodeur ou le décodeur doit être appliqué pour l'encodage des entrées et la prédiction, respectivement. Cela réduit le coût computationnel et évite de rencoder les prédictions lors de la génération d'une séquence d'images, atténuant ainsi la propagation des erreurs. De plus, il est possible de supprimer des couches d'un modèle déjà entraîné, ce qui donne un aperçu du rôle joué par chaque couche et rend le modèle plus explicable. Nous évaluons notre approche sur trois ensembles de données vidéo, surpassant les résultats de prédiction les plus avancés sur MMNIST et UCF101, et obtenant des résultats compétitifs sur KTH avec une utilisation mémoire et un coût computationnel 2 à 3 fois moindres que ceux de l'approche la mieux notée.