2 个月前
MonoDETR:基于深度引导的Transformer用于单目3D目标检测
Zhang, Renrui ; Qiu, Han ; Wang, Tai ; Guo, Ziyu ; Tang, Yiwen ; Xu, Xuanzhuo ; Cui, Ziteng ; Qiao, Yu ; Gao, Peng ; Li, Hongsheng

摘要
单目3D目标检测一直是自动驾驶领域中的一个难题。现有的大多数方法遵循传统的2D检测器,首先定位物体中心,然后通过邻近特征预测3D属性。然而,仅使用局部视觉特征不足以理解场景级别的3D空间结构,并且忽略了远距离的物体间深度关系。在本文中,我们介绍了首个用于单目检测的深度引导Transformer框架,命名为MonoDETR(Monocular DEtection with a depth-guided TRansformer)。我们对标准Transformer进行了修改,使其具备深度感知能力,并通过上下文深度线索引导整个检测过程。具体而言,在捕捉物体外观的视觉编码器之外,我们引入了预测前景深度图的方法,并专门设计了一个深度编码器来提取非局部深度嵌入。随后,我们将3D目标候选物定义为可学习查询,并提出了一种深度引导解码器来进行目标-场景深度交互。通过这种方式,每个目标查询能够从图像上的深度引导区域自适应地估计其3D属性,而不再受局部视觉特征的限制。在以单目图像作为输入的KITTI基准测试中,MonoDETR实现了最先进的性能,并且不需要额外的密集深度注释。此外,我们的深度引导模块还可以即插即用地增强nuScenes数据集上的多视图3D目标检测器,展示了其出色的泛化能力。代码可在以下地址获取:https://github.com/ZrrSkywalker/MonoDETR。