Apprentissage de transformations spatio-temporelles conjointes pour l'inpainting vidéo

Le remplissage de haute qualité des zones manquantes dans les images vidéo est une tâche prometteuse mais difficile. Les approches les plus récentes utilisent des modèles d'attention pour compléter une image en recherchant les contenus manquants dans des images de référence, puis complètent l'ensemble des vidéos image par image. Cependant, ces approches peuvent souffrir de résultats d'attention incohérents le long des dimensions spatiales et temporelles, ce qui entraîne souvent des flous et des artefacts temporels dans les vidéos. Dans cet article, nous proposons d'apprendre un réseau Spatial-Temporal Transformer (STTN) conjoint pour le remplissage vidéo. Plus précisément, nous remplissons simultanément les zones manquantes dans toutes les images d'entrée par auto-attention, et nous suggérons d'optimiser STTN par une perte adversaire spatiale-temporelle. Pour démontrer la supériorité du modèle proposé, nous effectuons à la fois des évaluations quantitatives et qualitatives en utilisant des masques stationnaires standards et des masques d'objets mobiles plus réalistes. Des démonstrations vidéo sont disponibles à l'adresse suivante : https://github.com/researchmm/STTN.