Command Palette
Search for a command to run...
Amélioration de l'inpainting vidéo guidé par le flux avec la génération de référence
Amélioration de l'inpainting vidéo guidé par le flux avec la génération de référence
Suhwan Cho Seoung Wug Oh Sangyoun Lee Joon-Young Lee
Résumé
Le remplissage de vidéos (VI) est une tâche complexe qui nécessite une propagation efficace du contenu observable entre les images tout en générant simultanément un nouveau contenu absent de la vidéo originale. Dans cette étude, nous proposons un cadre robuste et pratique pour le VI qui utilise un grand modèle génératif pour la génération de références, combiné à un algorithme avancé de propagation des pixels. Grâce à un modèle génératif puissant, notre méthode non seulement améliore considérablement la qualité au niveau des images pour l'élimination d'objets, mais synthétise également un nouveau contenu dans les zones manquantes basé sur des instructions textuelles fournies par l'utilisateur. Pour la propagation des pixels, nous introduisons une méthode de tirage de pixels en une seule étape qui évite efficacement l'accumulation d'erreurs due aux échantillonnages répétés tout en maintenant une précision sous-pixel. Afin d'évaluer diverses méthodes de VI dans des scénarios réalistes, nous proposons également un benchmark de haute qualité pour le VI, appelé HQVI, composé de vidéos soigneusement générées utilisant la composition par matting alpha. Sur les benchmarks publics et le jeu de données HQVI, notre méthode montre une qualité visuelle et des scores métriques nettement supérieurs par rapport aux solutions existantes. De plus, elle peut traiter des vidéos en haute résolution dépassant 2K avec facilité, soulignant son excellence pour les applications dans le monde réel.