
摘要
时空视频超分辨率(STVSR)是指将低帧率(LFR)和低分辨率(LR)视频插值生成高帧率(HFR)和高分辨率(HR)视频的任务。现有的基于卷积神经网络(CNN)的方法虽然在视觉效果上取得了令人满意的结果,但由于其复杂的架构导致推理速度较慢。我们提出了一种使用时空变换器的方法,该方法自然地将空间和时间超分辨率模块整合到一个单一模型中。与基于CNN的方法不同,我们没有显式地使用独立的构建块来进行时间插值和空间超分辨率;相反,我们仅使用一种端到端的变换器架构。具体而言,编码器根据输入的LFR和LR帧构建了一个可重用的字典,然后在解码部分利用该字典合成HFR和HR帧。与最先进的TMNet \cite{xu2021temporal}相比,我们的网络规模减少了60%(4.5M参数对比12.3M参数),并且在不牺牲性能的情况下速度快了80%(在720×576帧上的处理速度为26.2fps对比14.3fps)。源代码可在https://github.com/llmpass/RSTT获取。