17 天前
基于流引导的稀疏Transformer用于视频去模糊
Jing Lin, Yuanhao Cai, Xiaowan Hu, Haoqian Wang, Youliang Yan, Xueyi Zou, Henghui Ding, Yulun Zhang, Radu Timofte, Luc Van Gool

摘要
在视频去模糊任务中,利用时空邻域内相似且更清晰的图像块至关重要。然而,基于卷积神经网络(CNN)的方法在捕捉长距离依赖关系以及建模非局部自相似性方面存在局限。本文提出一种新型框架——光流引导稀疏变换器(Flow-Guided Sparse Transformer, FGST),用于视频去模糊。在FGST中,我们设计了一种自注意力模块——光流引导稀疏窗口多头自注意力(Flow-Guided Sparse Window-based Multi-head Self-Attention, FGSW-MSA)。针对模糊参考帧上的每个查询(query)元素,FGSW-MSA借助估计的光流信息,全局地采样来自相邻帧中对应同一场景块的空间稀疏但高度相关的键(key)元素,从而有效建模跨帧的非局部相似性。此外,我们引入了一种循环嵌入(Recurrent Embedding, RE)机制,用于传递历史帧的信息,增强长时序依赖建模能力。大量实验表明,所提出的FGST在DVD和GOPRO数据集上均优于当前最先进的方法(SOTA),并在真实视频去模糊任务中呈现出更为自然、视觉效果更优的结果。代码与预训练模型已公开发布于:https://github.com/linjing7/VR-Baseline