HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage de transformations spatio-temporelles conjointes pour l'inpainting vidéo

Yanhong Zeng; Jianlong Fu; Hongyang Chao

Résumé

Le remplissage de haute qualité des zones manquantes dans les images vidéo est une tâche prometteuse mais difficile. Les approches les plus récentes utilisent des modèles d'attention pour compléter une image en recherchant les contenus manquants dans des images de référence, puis complètent l'ensemble des vidéos image par image. Cependant, ces approches peuvent souffrir de résultats d'attention incohérents le long des dimensions spatiales et temporelles, ce qui entraîne souvent des flous et des artefacts temporels dans les vidéos. Dans cet article, nous proposons d'apprendre un réseau Spatial-Temporal Transformer (STTN) conjoint pour le remplissage vidéo. Plus précisément, nous remplissons simultanément les zones manquantes dans toutes les images d'entrée par auto-attention, et nous suggérons d'optimiser STTN par une perte adversaire spatiale-temporelle. Pour démontrer la supériorité du modèle proposé, nous effectuons à la fois des évaluations quantitatives et qualitatives en utilisant des masques stationnaires standards et des masques d'objets mobiles plus réalistes. Des démonstrations vidéo sont disponibles à l'adresse suivante : https://github.com/researchmm/STTN.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp