11 天前
基于投影建模的单目3D目标检测几何引导深度学习
Yinmin Zhang, Xinzhu Ma, Shuai Yi, Jun Hou, Zhihui Wang, Wanli Ouyang, Dan Xu

摘要
作为自动驾驶中的关键任务,三维目标检测近年来取得了显著进展。然而,单目三维目标检测仍面临严峻挑战,主要源于深度估计性能不理想。现有大多数单目方法通常直接回归场景深度,却忽视了深度与各类几何要素(如边界框尺寸、三维物体尺寸及物体姿态)之间的关键关联。本文提出一种基于投影建模的几何引导深度估计方法,以推动单目三维目标检测的发展。具体而言,我们设计了一种基于几何原理的公式,将二维与三维深度预测在单目三维目标检测网络中进行投影建模。进一步地,我们将该公式实现并嵌入网络结构中,实现具有几何感知能力的深度表示学习,从而有效促进二维与三维特征之间的交互,提升深度估计精度。此外,为确保所提几何公式的稳健学习,我们通过解决二维标注与投影边界框之间的显著错位问题,构建了一个强有力的基线模型。在KITTI数据集上的实验表明,本方法在不依赖额外数据的前提下,显著提升了当前最先进的单目检测方法在中等难度测试集上的性能,提升幅度达2.80%。相关模型与代码将开源发布于 https://github.com/YinminZhang/MonoGeo。