HyperAIHyperAI
il y a 18 jours

Apprentissage d’un Fréquencier Spatio-Temporel-Transformer pour la Super-Résolution de Vidéo de Faible Qualité

Zhongwei Qiu, Huan Yang, Jianlong Fu, Daochang Liu, Chang Xu, Dongmei Fu
Apprentissage d’un Fréquencier Spatio-Temporel-Transformer pour la Super-Résolution de Vidéo de Faible Qualité
Résumé

La Résolution Supérieure de Vidéo (VSR) vise à restaurer des vidéos à haute résolution (HR) à partir de vidéos à basse résolution (LR). Les techniques actuelles de VSR récupèrent généralement les images à haute résolution en extrayant des textures pertinentes à partir de cadres voisins, en tenant compte de processus de dégradation connus. Malgré les progrès significatifs réalisés, des défis majeurs persistent quant à l’extraction efficace et à la transmission de textures de haute qualité à partir de séquences de basse qualité fortement dégradées, telles que le flou, les bruits additifs ou les artefacts de compression. Dans ce travail, nous proposons une nouvelle méthode, appelée Frequency-Transformer (FTVSR), destinée à traiter les vidéos de mauvaise qualité en appliquant une attention auto-associative dans un espace combiné espace-temps-fréquence. Premièrement, les cadres vidéo sont divisés en patches, puis chaque patch est transformé en cartes spectrales, où chaque canal représente une bande de fréquence. Cette transformation permet une attention auto-associative fine à l’échelle de chaque bande de fréquence, permettant ainsi de distinguer clairement les textures visuelles réelles des artefacts. Deuxièmement, nous introduisons un nouveau mécanisme d’attention fréquentielle double (DFA) pour capturer à la fois les relations fréquentielles globales et locales, ce qui permet de gérer efficacement divers processus de dégradation complexes présents dans des scénarios du monde réel. Troisièmement, nous explorons différentes approches d’attention auto-associative pour le traitement vidéo dans le domaine fréquentiel, et découvrons que l’approche dite « attention divisée », qui applique d’abord une attention conjointe espace-fréquence avant de traiter l’attention temps-fréquence, conduit à la meilleure qualité d’amélioration vidéo. Des expérimentations étendues sur trois jeux de données VSR largement utilisés montrent que FTVSR surpasse les méthodes de pointe dans divers scénarios de vidéos de mauvaise qualité, avec des marges visuelles nettes. Le code source et les modèles pré-entraînés sont disponibles à l’adresse suivante : https://github.com/researchmm/FTVSR.

Apprentissage d’un Fréquencier Spatio-Temporel-Transformer pour la Super-Résolution de Vidéo de Faible Qualité | Articles de recherche récents | HyperAI