
摘要
尽管基于学习的立体匹配算法取得了显著进展,但一个关键挑战仍未解决:当前最先进的立体匹配模型大多依赖于计算成本高昂的三维卷积。其立方级的计算复杂度和较高的内存消耗,使得这些模型在实际应用中的部署变得极为昂贵。本文旨在彻底摒弃常用的三维卷积,以实现快速推理速度的同时保持相当的精度。为此,我们首先提出一种基于稀疏点的尺度内代价聚合方法,有效缓解了在视差不连续处常见的边缘模糊(edge-fattening)问题。进一步地,我们采用神经网络层对传统的跨尺度代价聚合算法进行近似,以更好地处理大范围无纹理区域。上述两个模块结构简单、轻量化且具有互补性,共同构成了一种高效而有效的代价聚合架构。借助这两个模块,我们不仅可显著提升现有顶尖模型的推理速度(例如,相比GC-Net提升41倍,相比PSMNet提升4倍,相比GA-Net提升38倍),还能进一步提升快速立体匹配模型(如StereoNet)的性能。此外,我们在Scene Flow和KITTI数据集上取得了具有竞争力的实验结果,同时保持62毫秒的推理速度,充分展示了所提方法的通用性与高效率。我们的完整框架已开源,地址为:https://github.com/haofeixu/aanet。