Apprentissage d’un Fréquencier Spatio-Temporel-Transformer pour la Résolution d’Images Vidéo Comprimée

La super-résolution vidéo compressée (VSR) vise à restaurer des images à haute résolution à partir de leurs contreparties compressées à basse résolution. La plupart des approches récentes de VSR améliorent une image d’entrée en empruntant des textures pertinentes à des images vidéo voisines. Bien que des progrès aient été réalisés, des défis majeurs persistent pour extraire efficacement et transférer des textures de haute qualité à partir de vidéos compressées, où la plupart des images sont généralement fortement dégradées. Dans cet article, nous proposons une nouvelle architecture appelée Frequency-Transformer pour la super-résolution vidéo compressée (FTVSR), qui applique une attention self-attention dans un espace conjoint temporel-fréquentiel. Premièrement, nous divisons une image vidéo en patches, puis transformons chaque patch en cartes spectrales DCT, où chaque canal représente une bande de fréquence. Ce design permet une attention fine à l’échelle de chaque bande de fréquence, permettant ainsi de distinguer les textures visuelles réelles des artefacts, et de les exploiter ultérieurement pour la restauration des images vidéo. Deuxièmement, nous étudions différentes stratégies d’attention self-attention, et découvrons qu’une attention divisée, qui applique d’abord une attention conjointe espace-fréquence avant d’appliquer une attention temporelle sur chaque bande de fréquence, conduit à la meilleure qualité de restauration vidéo. Les résultats expérimentaux sur deux benchmarks largement utilisés pour la super-résolution vidéo montrent que FTVSR surpasse les méthodes de pointe, tant sur des vidéos non compressées que sur des vidéos compressées, avec des marges visuelles nettes. Le code est disponible à l’adresse suivante : https://github.com/researchmm/FTVSR.