Remplissage de Vidéo Profond

Le remplissage de vidéos vise à combler les trous spatio-temporels avec un contenu plausible dans une vidéo. Bien que des progrès considérables aient été réalisés dans le domaine du remplissage d'images grâce aux réseaux neuronaux profonds, il est difficile d'étendre ces méthodes au domaine des vidéos en raison de la dimension temporelle supplémentaire. Dans ce travail, nous proposons une nouvelle architecture de réseau profond pour un remplissage rapide de vidéos. Basée sur un modèle encodeur-décodeur basé sur les images, notre cadre est conçu pour collecter et affiner les informations provenant des images voisines et synthétiser les régions encore inconnues. En même temps, la sortie est contrainte d'être temporellement cohérente grâce à un retour récurrent et à un module de mémoire temporelle. Comparée à l'algorithme de pointe pour le remplissage d'images, notre méthode produit des vidéos beaucoup plus sémantiquement correctes et temporellement fluides. Contrairement aux méthodes précédentes de complétion vidéo qui reposent sur une optimisation chronophage, notre méthode fonctionne en quasi-temps réel tout en générant des résultats vidéo compétitifs. Enfin, nous avons appliqué notre cadre à la tâche de redimensionnement vidéo et obtenu des résultats visuellement agréables.