SDC-Net : Prédiction vidéo utilisant une convolution décalée spatialement

Nous présentons une approche pour la prédiction de trames vidéo à haute résolution, conditionnée à la fois sur les trames passées et sur les flux optiques passés. Les approches précédentes s’appuient soit sur un rééchantillonnage des trames passées guidé par un flux optique futur appris, soit sur une génération directe des pixels. Le rééchantillonnage basé sur le flux s’avère insuffisant, car il ne parvient pas à traiter les occlusions. Les modèles génératifs actuels produisent généralement des résultats flous. Des approches récentes synthétisent un pixel en convoluant des patches d’entrée avec un noyau prédit. Toutefois, leur consommation mémoire croît avec la taille du noyau. Dans cet article, nous proposons un module de convolution décalée spatialement (SDC) pour la prédiction de trames vidéo. Nous apprenons un vecteur de mouvement et un noyau pour chaque pixel, puis nous synthétisons un pixel en appliquant le noyau à une position décalée dans l’image source, définie par le vecteur de mouvement prédit. Notre méthode combine les avantages des approches basées sur les vecteurs et celles fondées sur les noyaux, tout en atténuant leurs inconvénients respectifs. Nous entraînons notre modèle sur 428 000 trames vidéo en 1080p non étiquetées provenant de jeux vidéo. Notre approche atteint des résultats de pointe, obtenant un score SSIM de 0,904 sur des vidéos haute définition du corpus YouTube-8M et de 0,918 sur le jeu de données Caltech Pedestrian. Notre modèle gère efficacement les grands déplacements et génère des trames nettes avec un mouvement cohérent.