6 个月前

摘要

视频超分辨率（Video Super-Resolution, VSR）旨在从低分辨率（Low-Resolution, LR）视频中恢复出高分辨率（High-Resolution, HR）视频。现有的VSR技术通常通过从已知退化过程的邻近帧中提取相关纹理信息来重建HR帧。尽管取得了显著进展，但在处理高度退化的低质量视频序列（如模糊、加性噪声和压缩伪影）时，如何有效提取并传递高质量纹理仍面临重大挑战。本文提出一种新型频率变换网络——频率变换超分辨率网络（Frequency-Transformer for VSR, FTVSR），用于处理低质量视频。该方法在时空频联合域中实现自注意力机制，以更精细地建模视频内容。具体而言，首先将视频帧划分为图像块（patches），并将每个图像块转换为频谱图，其中每个通道代表一个特定的频率带。这种表示方式使得模型能够在每个频率带内实现细粒度的自注意力计算，从而有效区分真实视觉纹理与退化引入的伪影。其次，本文提出一种新颖的双频注意力机制（Dual Frequency Attention, DFA），能够同时捕捉全局频率关系与局部频率关系，从而有效应对现实场景中复杂多样的退化模式。第三，本文系统地探索了频域内用于视频处理的不同自注意力机制，并发现一种“分治注意力”（divided attention）策略表现最优：即在应用时频注意力之前，先执行联合空频注意力。该设计显著提升了视频增强的质量。在三个广泛使用的VSR数据集上的大量实验表明，FTVSR在多种低质量视频上均显著优于现有最先进方法，且在视觉效果上具有明显优势。相关代码与预训练模型已开源，地址为：https://github.com/researchmm/FTVSR。

源 PDF