Prédiction vidéo à résidu latent stochastique

La conception de modèles de prédiction vidéo prenant en compte l’incertitude inhérente à l’avenir est un défi. La plupart des travaux existants s’appuient sur des réseaux récurrents stochastiques à auto-régression d’images, ce qui soulève plusieurs problèmes de performance et de faisabilité. Une alternative consiste à utiliser des modèles temporels entièrement latents, qui séparent la synthèse des trames et la dynamique temporelle. Toutefois, aucun modèle de ce type pour la prédiction vidéo stochastique n’a encore été proposé dans la littérature, en raison de difficultés de conception et d’entraînement. Dans cet article, nous surmontons ces difficultés en introduisant un nouveau modèle temporel stochastique dont la dynamique est régie dans un espace latente par une règle de mise à jour résiduelle. Ce schéma d’ordre un est motivé par les schémas de discrétisation des équations différentielles. Il modélise naturellement la dynamique vidéo, permettant à notre modèle latente plus simple et plus interprétable de surpasser les méthodes de pointe précédentes sur des jeux de données exigeants.