HyperAIHyperAI

Command Palette

Search for a command to run...

Module de Décalage Temporel Apprenable avec Portes pour l'Inpainting Vidéo Profond

Ya-Liang Chang* Zhe Yu Liu* Xuan-Ying Lee Winston Hsu

Résumé

La manière d'utiliser efficacement les informations temporelles pour restaurer des vidéos de manière cohérente est le principal défi des problèmes de restauration vidéo (inpainting). Les CNNs 2D conventionnels ont obtenu de bons résultats en matière de restauration d'images mais entraînent souvent des résultats temporellement incohérents, où les images clignotent lorsqu'ils sont appliqués aux vidéos (voir https://www.youtube.com/watch?v=87Vh1HDBjD0&list=PLPoVtv-xp_dL5uckIzz1PKwNjg1yI0I94&index=1). Les CNNs 3D peuvent capturer des informations temporelles mais sont coûteux en termes de calcul et difficiles à entraîner. Dans cet article, nous présentons un nouveau composant appelé Module Temporel Décalé Apprenable (Learnable Gated Temporal Shift Module, LGTSM) pour les modèles de restauration vidéo, capable de traiter efficacement des masques vidéo arbitraires sans ajouter de paramètres supplémentaires provenant des convolutions 3D. Le LGTSM est conçu pour permettre aux convolutions 2D d'utiliser plus efficacement les images voisines, ce qui est crucial pour la restauration vidéo. Plus précisément, dans chaque couche, le LGTSM apprend à décaler certains canaux vers leurs voisins temporels afin que les convolutions 2D puissent être améliorées pour gérer les informations temporelles. Parallèlement, une convolution pilotée par une porte (gated convolution) est appliquée à la couche pour identifier les zones masquées qui sont nuisibles pour les convolutions conventionnelles. Sur les jeux de données FaceForensics et Free-form Video Inpainting (FVI), notre modèle atteint des résultats d'état de l'art avec seulement 33 % des paramètres et du temps d'inférence.Note : - "Temporal information" a été traduit par "informations temporelles".- "Video inpainting" a été traduit par "restauration vidéo" ou "restauration d'images vidéo", selon le contexte.- "Learnable Gated Temporal Shift Module (LGTSM)" a été traduit par "Module Temporel Décalé Apprenable (LGTSM)".- "FaceForensics and Free-form Video Inpainting (FVI) dataset" a été traduit par "jeux de données FaceForensics et Free-form Video Inpainting (FVI)".


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp