6 个月前

摘要

视频去模糊技术依赖于利用视频序列中其他帧的信息，以恢复当前帧中的模糊区域。主流方法通常采用双向特征传播、时空Transformer，或两者的结合，从视频序列中提取上下文信息。然而，受限于内存和计算资源，时空Transformer的时序窗口长度受到限制，难以从视频序列中提取更长时序的上下文信息。此外，双向特征传播对模糊帧中不准确的光流高度敏感，导致在传播过程中产生误差累积。为解决上述问题，我们提出了一种名为BSSTNet（Blur-aware Spatio-temporal Sparse Transformer Network）的新方法。该方法引入了模糊图（blur map），将原本密集的注意力机制转化为稀疏形式，从而更充分地利用整个视频序列中的信息。具体而言，BSSTNet具有以下两个关键特性：（1）在Transformer中采用更长的时序窗口，能够利用距离较远帧的信息，有效恢复当前帧中的模糊像素；（2）提出基于模糊图引导的双向特征传播机制，显著降低了因模糊帧带来的误差累积问题。实验结果表明，所提出的BSSTNet在GoPro和DVD数据集上均优于现有最先进方法。

源 PDF