
摘要
我们介绍了一种名为多网格预测滤波流(mgPFF)的框架,用于视频上的无监督学习。mgPFF 以一对帧作为输入,输出每个像素的滤波器,用于将一帧变形到另一帧。与用于帧变形的光流相比,mgPFF 在建模亚像素运动和处理图像退化(如运动模糊)方面更为强大。我们开发了一种多网格从粗到细的建模策略,避免了为捕捉大位移而学习大滤波器的需求。这使得我们可以训练一个极其紧凑的模型(4.6 MB),该模型在多个分辨率上以渐进的方式运行,并且权重共享。我们在无监督、自由形式的视频上训练 mgPFF,并展示了 mgPFF 不仅能够估计长距离光流以进行帧重建和检测视频镜头转换,还能够轻松应用于视频对象分割和姿态跟踪,在这些任务中显著优于已发表的最先进方法,无需复杂的附加技术。此外,由于 mgPFF 的每个像素滤波器预测特性,我们有机会独特地可视化每个像素在解决这些任务时的变化过程,从而获得更好的可解释性。