HyperAIHyperAI
il y a 2 mois

Apprentissage de l'adaptation spatiale et de la cohérence temporelle dans les modèles de diffusion pour la super-résolution vidéo

Zhikai Chen; Fuchen Long; Zhaofan Qiu; Ting Yao; Wengang Zhou; Jiebo Luo; Tao Mei
Apprentissage de l'adaptation spatiale et de la cohérence temporelle dans les modèles de diffusion pour la super-résolution vidéo
Résumé

Les modèles de diffusion sont actuellement à un point de basculement pour la tâche de sur-résolution d'images. Néanmoins, il n'est pas trivial d'exploiter les modèles de diffusion pour la sur-résolution vidéo, qui nécessite non seulement la préservation de l'apparence visuelle des vidéos en faible résolution vers celles en haute résolution, mais aussi la cohérence temporelle entre les trames vidéo. Dans cet article, nous proposons une nouvelle approche, poursuivant l'Adaptation Spatiale et la Cohérence Temporelle (SATeCo), pour la sur-résolution vidéo. SATeCo repose sur l'apprentissage d'une guidance spatio-temporelle à partir des vidéos en faible résolution afin de calibrer à la fois le débruitage des vidéos en haute résolution dans l'espace latent et la reconstruction vidéo dans l'espace des pixels. Sur le plan technique, SATeCo fige tous les paramètres du UNet et du VAE pré-entraînés, et ne optimise que deux modules spécifiquement conçus : l'adaptation spatiale des caractéristiques (SFA) et l'alignement temporel des caractéristiques (TFA), dans le décodeur du UNet et du VAE. Le SFA modifie les caractéristiques des trames en estimant de manière adaptative les paramètres affines pour chaque pixel, garantissant une guidance pixel par pixel pour la synthèse des trames en haute résolution. Le TFA explore l'interaction des caractéristiques au sein d'une fenêtre locale 3D (tubelet) grâce à l'auto-attention, et exécute une attention croisée entre le tubelet et son équivalent en faible résolution pour guider l'alignement temporel des caractéristiques. De nombreuses expériences menées sur les jeux de données REDS4 et Vid4 démontrent l'efficacité de notre approche.

Apprentissage de l'adaptation spatiale et de la cohérence temporelle dans les modèles de diffusion pour la super-résolution vidéo | Articles de recherche récents | HyperAI