
摘要
近年来,基于深度学习的立体匹配方法在精度方面持续取得提升。然而,这种性能的提升伴随着计算成本的显著增加,导致网络模型甚至难以部署在中等性能的GPU上。这一问题在需要将模型部署于资源受限设备的场景下尤为突出。为此,本文提出两种轻量级立体视觉模型,通过降低模型复杂度,在不牺牲精度的前提下实现高效运行。根据代价体(cost volume)的维度,我们分别设计了基于2D卷积和3D卷积构建的编码器-解码器结构的2D与3D模型。为此,我们引入了2D MobileNet模块,并将其扩展至3D,以适配立体视觉任务。此外,我们提出一种新型代价体构造方法,显著提升了2D模型的精度,使其性能接近于传统3D网络。实验结果表明,所提出的2D/3D网络在大幅降低计算开销的同时保持了高精度:2D模型参数量和计算量分别减少27%和95%,3D模型则分别减少72%和38%。相关代码已开源,地址为:https://github.com/cogsys-tuebingen/mobilestereonet。