
摘要
光流估计是计算机视觉中的基础任务。近年来,基于深度神经网络的直接回归方法在性能上取得了显著提升。然而,这些方法未能显式建模长时运动对应关系,因此在处理大位移运动时表现不佳。受传统匹配-优化方法的启发——该类方法在基于能量的优化之前引入匹配步骤以处理大位移——本文在直接回归之前引入了一个简单而有效的全局匹配步骤,并构建了一种基于学习的匹配-优化框架,称为GMFlowNet。在GMFlowNet中,通过在四维代价体(4D cost volumes)上应用argmax操作,实现了高效的全局匹配计算。此外,为提升匹配质量,本文提出了一种基于块的重叠注意力机制(patch-based overlapping attention),用于提取大范围上下文特征。大量实验表明,GMFlowNet在标准基准测试上显著优于目前最流行的纯优化方法RAFT,并达到了当前最优性能。得益于引入的匹配机制与重叠注意力结构,GMFlowNet在无纹理区域和大运动场景下的光流预测性能获得了显著提升。相关代码已公开发布于:https://github.com/xiaofeng94/GMFlowNet