
摘要
在视频超分辨率任务中,通常采用逐帧对齐(frame-wise alignment)来实现时间维度上的信息传播。虽然对齐机制在视频低层增强任务中已被广泛研究,但现有方法普遍忽略了一个关键步骤——重采样(resampling)。通过大量实验,我们发现:为了使对齐有效,重采样过程必须在尽可能减少空间失真的同时,保持参考帧的频谱特性。然而,大多数现有方法仍默认采用双线性插值(bilinear interpolation)进行重采样,而该方法具有平滑效应,会抑制高频信息,从而阻碍超分辨率性能的提升。基于上述观察,我们提出一种基于隐式重采样的对齐机制。该方法通过正弦位置编码(sinusoidal positional encoding)来隐式地表示采样位置,而采样值则通过坐标网络(coordinate network)与基于窗口的交叉注意力机制(window-based cross-attention)进行估计。我们进一步证明,双线性插值本质上会衰减高频信息,而基于多层感知机(MLP)的坐标网络则能够更有效地逼近高频成分。在合成数据集与真实世界数据集上的实验结果表明,所提出的隐式重采样对齐方法能够在几乎不增加计算开销和参数量的前提下,显著提升当前先进超分辨率框架的性能。