
摘要
基于学习的光流估计方法长期以来依赖于以卷积操作构建代价体(cost volume)进行光流回归的流水线,该方法本质上仅能捕捉局部相关性,因而难以有效应对大位移这一长期存在的挑战。为缓解这一问题,当前最先进的框架RAFT通过引入大量迭代优化步骤逐步提升预测精度,虽取得了显著性能,但导致推理时间呈线性增长。为兼顾高精度与高效率,本文彻底重构了主流的光流回归流水线,将光流估计重新建模为全局匹配问题,通过直接比较特征相似性来识别像素间对应关系。为此,我们提出GMFlow框架,其包含三个核心组件:用于特征增强的定制化Transformer、用于全局特征匹配的相似性计算与Softmax层,以及用于光流传播的自注意力机制。此外,我们进一步引入一个精炼步骤,利用更高分辨率的特征复用GMFlow进行残差光流预测。实验结果表明,GMFlow在具有挑战性的Sintel基准测试中超越了采用31次迭代优化的RAFT,仅使用一次精炼步骤且运行速度更快,展现出一种兼具高精度与高效率的光流估计新范式。代码已开源,地址为:https://github.com/haofeixu/gmflow。