11 天前

BEVStereo:通过动态时间立体视觉提升多视角3D目标检测中的深度估计

Yinhao Li, Han Bao, Zheng Ge, Jinrong Yang, Jianjian Sun, Zeming Li
BEVStereo:通过动态时间立体视觉提升多视角3D目标检测中的深度估计
摘要

由于深度感知固有的模糊性,当前基于摄像头的三维目标检测方法已陷入性能瓶颈。直观上,利用时序多视角立体视觉(Temporal Multi-View Stereo, MVS)技术是解决该模糊性问题的自然途径。然而,传统MVS方法在应用于三维目标检测场景时存在两个明显缺陷:其一,所有视图之间的相似性度量计算开销巨大;其二,难以应对室外场景中物体频繁移动的复杂情况。为此,我们提出一种高效的时序立体匹配方法,能够动态选择匹配候选区域的尺度,显著降低计算开销。更进一步,我们设计了一种迭代算法,用于持续更新更具价值的候选区域,从而实现对运动目标的自适应匹配。我们将所提方法应用于多视角三维检测框架,构建了名为BEVStereo的检测器。在nuScenes数据集的纯摄像头评测赛道上,BEVStereo取得了新的最先进性能,达到52.5%的mAP和61.0%的NDS。大量实验表明,与现有MVS方法相比,本方法在复杂室外场景下的适应能力显著更优。相关代码已开源,地址为:https://github.com/Megvii-BaseDetection/BEVStereo。

BEVStereo:通过动态时间立体视觉提升多视角3D目标检测中的深度估计 | 最新论文 | HyperAI超神经