
摘要
视频去模糊方法成功的关键在于利用相邻帧中的清晰像素来补偿中间帧中的模糊像素。因此,主流方法通常基于估计的光流对相邻帧进行对齐,并将对齐后的帧进行融合以实现图像恢复。然而,这类方法在某些情况下会产生不理想的结果,主要原因在于它们很少考虑像素级别的模糊程度,这可能导致从视频帧中引入新的模糊像素。事实上,并非视频帧中的所有像素都清晰且有助于去模糊。为解决这一问题,本文提出了一种时空可变形注意力网络(Spatio-Temporal Deformable Attention Network, STDANet)用于视频去模糊。该方法通过考虑视频帧中每个像素的模糊程度,有效提取清晰像素的信息。具体而言,STDANet是一种编码器-解码器结构,结合了运动估计器与时空可变形注意力(Spatio-Temporal Deformable Attention, STDA)模块;其中,运动估计器预测粗略光流,作为STDA模块中的基础偏移量,用于定位对应区域中的清晰像素。实验结果表明,所提出的STDANet在GoPro、DVD和BSD数据集上均显著优于现有最先进方法。