
近年来,基于学习的模型显著提升了单图像超分辨率(Single-Image Super-Resolution, SISR)的性能。然而,若将SISR方法逐帧应用于视频序列,会导致时间维度上的一致性缺失。卷积神经网络(Convolutional Neural Networks, CNNs)在图像质量指标(如峰值信噪比PSNR和结构相似性SSIM)方面优于传统方法。然而,生成对抗网络(Generative Adversarial Networks, GANs)在处理大倍数超分辨率时,能够有效缓解CNN方法普遍存在的细节纹理缺失问题,展现出显著优势。本文提出iSeeBetter,一种基于GAN的新型时空联合视频超分辨率(Video Super-Resolution, VSR)方法,可生成具有时间一致性的高质量超分辨率视频。iSeeBetter采用循环反投影网络(recurrent back-projection networks)的思想,作为其生成器,从当前帧及其邻近帧中联合提取空间与时间信息。此外,为提升超分辨率图像的自然感并消除传统算法常见的伪影,我们引入了超分辨率生成对抗网络(SRGAN)中的判别器模块。尽管均方误差(Mean Squared Error, MSE)作为主要优化目标可有效提升PSNR和SSIM指标,但这些指标难以捕捉图像中的精细细节,可能导致感知质量的误判。为此,我们设计了一种四重损失函数,包含MSE损失、感知损失(perceptual loss)、对抗损失(adversarial loss)以及总变差损失(Total Variation, TV loss),以综合优化重建质量。实验结果表明,iSeeBetter在视频超分辨率的保真度方面表现优异,显著超越现有最先进方法。