2 个月前

学习轨迹感知的Transformer用于视频超分辨率

Chengxu Liu; Huan Yang; Jianlong Fu; Xueming Qian
学习轨迹感知的Transformer用于视频超分辨率
摘要

视频超分辨率(VSR)旨在从低分辨率(LR)帧中恢复一系列高分辨率(HR)帧。尽管已经取得了一些进展,但在整个视频序列中有效利用时间依赖性仍然是一个巨大的挑战。现有的方法通常仅对有限的相邻帧(例如5帧或7帧)进行对齐和聚合,这限制了这些方法的性能,无法达到令人满意的结果。本文进一步推进了视频中的时空学习技术,提出了一种新颖的轨迹感知Transformer用于视频超分辨率(TTVSR)。具体而言,我们将视频帧划分为多个预对齐的轨迹,每个轨迹由连续的视觉标记组成。对于查询标记,自注意力机制仅在时空轨迹上的相关视觉标记上进行学习。与传统的视觉Transformer相比,这种设计显著降低了计算成本,并使Transformer能够建模长距离特征。我们还提出了一种跨尺度特征标记模块,以克服长距离视频中常见的尺度变化问题。实验结果表明,在四个广泛使用的视频超分辨率基准测试中,所提出的TTVSR模型在广泛的定量和定性评估中优于现有最先进模型。代码和预训练模型可从https://github.com/researchmm/TTVSR下载。

学习轨迹感知的Transformer用于视频超分辨率 | 最新论文 | HyperAI超神经