17 天前

基于全局运动聚合的学习隐式运动估计

Shihao Jiang, Dylan Campbell, Yao Lu, Hongdong Li, Richard Hartley
基于全局运动聚合的学习隐式运动估计
摘要

遮挡问题对依赖局部证据的光流算法构成了重大挑战。本文将遮挡点定义为在第一帧中被成像但在第二帧中未被成像的点,这一定义略显宽泛,因为它也包含了移出图像边界点的情况。在仅使用两帧图像的设定下,估计这些遮挡点的运动尤为困难。以往的方法要么依赖卷积神经网络(CNN)学习遮挡,但效果有限;要么需要多帧图像,借助时间平滑性来推断遮挡情况。本文提出,通过建模图像的自相似性,可以在两帧设定下更有效地解决遮挡问题。为此,我们引入了一种全局运动聚合模块(Global Motion Aggregation, GMA),该模块基于Transformer架构,用于捕捉第一帧图像中像素间的长程依赖关系,并对对应的运动特征进行全局聚合。实验表明,该方法显著提升了遮挡区域的光流估计精度,同时未对非遮挡区域的性能造成负面影响。在具有挑战性的Sintel数据集上,该方法取得了新的最先进成果:在Sintel Final测试集上平均端点误差降低了13.6%,在Sintel Clean测试集上降低了13.7%。在投稿时,本方法在所有已发表及未发表的方法中均排名第一。代码已开源,地址为:https://github.com/zacjiang/GMA。