14 天前
重新思考视频超分辨率Transformer中的对齐问题
Shuwei Shi, Jinjin Gu, Liangbin Xie, Xintao Wang, Yujiu Yang, Chao Dong

摘要
在视频超分辨率(Video Super-Resolution, VSR)任务中,相邻帧之间的对齐被视为一项关键操作。当前先进的VSR模型,包括最新的VSR Transformer架构,通常都配备了精心设计的对齐模块。然而,自注意力机制的发展可能正在挑战这一普遍认知。本文重新审视了对齐在VSR Transformer中的作用,并提出了若干反直觉的观察结果。实验表明:(i)VSR Transformer能够直接利用未对齐视频中的多帧信息;(ii)现有的对齐方法在某些情况下反而会对VSR Transformer的性能产生负面影响。这些发现表明,仅通过移除对齐模块并采用更大的注意力窗口,即可进一步提升VSR Transformer的性能。然而,此类设计会显著增加计算开销,且难以处理大运动场景。为此,我们提出一种新型高效对齐方法——块对齐(patch alignment),该方法对图像块而非像素进行对齐。配备块对齐机制的VSR Transformer在多个基准测试上均取得了当前最优的性能表现。本研究为理解多帧信息在VSR中的利用方式,以及如何根据不同的网络结构与数据集选择合适的对齐策略,提供了重要的启示。相关代码与模型将开源发布于:https://github.com/XPixelGroup/RethinkVSRAlignment。