18 天前

用于光流的体素对应网络

{Deva Ramanan, Gengshan Yang}
用于光流的体素对应网络
摘要

在计算机视觉的诸多经典任务中——例如光流估计与立体视差计算——均可被建模为密集对应匹配问题。现有的经典方法通常采用代价体(cost volume)这一结构,其本质上是一个4D张量,用于表示二维图像中所有像素与其在二维搜索窗口内潜在匹配点之间的匹配代价。当前最先进的光流/立体匹配深度网络也普遍将此类体素化表示作为内部层使用。然而,这类层通常需要大量内存与计算资源,导致其在实际应用中难以高效部署。为此,现有先进网络不得不引入多种启发式策略以限制体素处理的范围,但这往往导致精度受限以及过拟合问题。为解决上述挑战,本文提出一系列简单而有效的改进,显著简化了体素化层的使用方式:(1)设计了高效的体素编码器-解码器架构,能够有效捕捉大感受野;(2)引入多通道代价体,以建模像素间多维度的相似性特征;(3)采用可分离的体素滤波机制,在大幅降低计算量与参数量的同时,保持了优异的精度表现。这些创新使得模型在标准基准测试中显著超越现有最先进方法,且具有更强的实用性——训练收敛速度提升10倍,更重要的是,所提出的网络具备跨对应任务的良好泛化能力。通过动态调整搜索窗口,我们可将光流网络轻松迁移至立体匹配任务(反之亦然),并可进一步用于构建自适应网络,在需要时按需扩展搜索窗口大小,从而实现灵活高效的视觉匹配系统。