HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage de l'adaptation spatiale et de la cohérence temporelle dans les modèles de diffusion pour la super-résolution vidéo

Zhikai Chen; Fuchen Long; Zhaofan Qiu; Ting Yao; Wengang Zhou; Jiebo Luo; Tao Mei

Résumé

Les modèles de diffusion sont actuellement à un point de basculement pour la tâche de sur-résolution d'images. Néanmoins, il n'est pas trivial d'exploiter les modèles de diffusion pour la sur-résolution vidéo, qui nécessite non seulement la préservation de l'apparence visuelle des vidéos en faible résolution vers celles en haute résolution, mais aussi la cohérence temporelle entre les trames vidéo. Dans cet article, nous proposons une nouvelle approche, poursuivant l'Adaptation Spatiale et la Cohérence Temporelle (SATeCo), pour la sur-résolution vidéo. SATeCo repose sur l'apprentissage d'une guidance spatio-temporelle à partir des vidéos en faible résolution afin de calibrer à la fois le débruitage des vidéos en haute résolution dans l'espace latent et la reconstruction vidéo dans l'espace des pixels. Sur le plan technique, SATeCo fige tous les paramètres du UNet et du VAE pré-entraînés, et ne optimise que deux modules spécifiquement conçus : l'adaptation spatiale des caractéristiques (SFA) et l'alignement temporel des caractéristiques (TFA), dans le décodeur du UNet et du VAE. Le SFA modifie les caractéristiques des trames en estimant de manière adaptative les paramètres affines pour chaque pixel, garantissant une guidance pixel par pixel pour la synthèse des trames en haute résolution. Le TFA explore l'interaction des caractéristiques au sein d'une fenêtre locale 3D (tubelet) grâce à l'auto-attention, et exécute une attention croisée entre le tubelet et son équivalent en faible résolution pour guider l'alignement temporel des caractéristiques. De nombreuses expériences menées sur les jeux de données REDS4 et Vid4 démontrent l'efficacité de notre approche.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Apprentissage de l'adaptation spatiale et de la cohérence temporelle dans les modèles de diffusion pour la super-résolution vidéo | Articles | HyperAI