6 个月前

摘要

遮挡问题对依赖局部证据的光流算法构成了重大挑战。本文将遮挡点定义为在第一帧中被成像但在第二帧中未被成像的点，这一定义略显宽泛，因为它也包含了移出图像边界点的情况。在仅使用两帧图像的设定下，估计这些遮挡点的运动尤为困难。以往的方法要么依赖卷积神经网络（CNN）学习遮挡，但效果有限；要么需要多帧图像，借助时间平滑性来推断遮挡情况。本文提出，通过建模图像的自相似性，可以在两帧设定下更有效地解决遮挡问题。为此，我们引入了一种全局运动聚合模块（Global Motion Aggregation, GMA），该模块基于Transformer架构，用于捕捉第一帧图像中像素间的长程依赖关系，并对对应的运动特征进行全局聚合。实验表明，该方法显著提升了遮挡区域的光流估计精度，同时未对非遮挡区域的性能造成负面影响。在具有挑战性的Sintel数据集上，该方法取得了新的最先进成果：在Sintel Final测试集上平均端点误差降低了13.6%，在Sintel Clean测试集上降低了13.7%。在投稿时，本方法在所有已发表及未发表的方法中均排名第一。代码已开源，地址为：https://github.com/zacjiang/GMA。

源 PDF