17 天前

用于压缩视频超分辨率的时空频率Transformer学习

Zhongwei Qiu, Huan Yang, Jianlong Fu, Dongmei Fu
用于压缩视频超分辨率的时空频率Transformer学习
摘要

压缩视频超分辨率(Compressed Video Super-Resolution, VSR)旨在从压缩的低分辨率视频帧中恢复出高分辨率帧。目前大多数VSR方法通常通过从相邻视频帧中借用相关纹理来增强输入帧。尽管已取得一定进展,但在高度退化的压缩视频中,如何有效提取并传输高质量纹理仍面临重大挑战。本文提出一种新型频域变换器——频域变换器用于压缩视频超分辨率(Frequency-Transformer for Compressed Video Super-Resolution, FTVSR),该方法在联合时空频域上执行自注意力机制。首先,我们将视频帧划分为多个图像块,并将每个图像块转换为基于DCT的频谱图,其中每个通道对应一个频率带。这种设计使得能够在每个频率带层面实现细粒度的自注意力机制,从而有效区分真实视觉纹理与伪影,并进一步用于视频帧的恢复。其次,我们系统研究了多种自注意力机制,发现一种分步注意力策略——即在每个频率带先执行联合空-频域注意力,再进行时域注意力,能够显著提升视频增强质量。在两个广泛使用的视频超分辨率基准数据集上的实验结果表明,FTVSR在未压缩和压缩视频上均显著优于当前最先进的方法,视觉效果提升明显。代码已开源,地址为:https://github.com/researchmm/FTVSR。

用于压缩视频超分辨率的时空频率Transformer学习 | 最新论文 | HyperAI超神经