2 个月前

MonoDETR：基于深度引导的Transformer用于单目3D目标检测

Zhang, Renrui ; Qiu, Han ; Wang, Tai ; Guo, Ziyu ; Tang, Yiwen ; Xu, Xuanzhuo ; Cui, Ziteng ; Qiao, Yu ; Gao, Peng ; Li, Hongsheng

查看论文详情

摘要

单目3D目标检测一直是自动驾驶领域中的一个难题。现有的大多数方法遵循传统的2D检测器，首先定位物体中心，然后通过邻近特征预测3D属性。然而，仅使用局部视觉特征不足以理解场景级别的3D空间结构，并且忽略了远距离的物体间深度关系。在本文中，我们介绍了首个用于单目检测的深度引导Transformer框架，命名为MonoDETR（Monocular DEtection with a depth-guided TRansformer）。我们对标准Transformer进行了修改，使其具备深度感知能力，并通过上下文深度线索引导整个检测过程。具体而言，在捕捉物体外观的视觉编码器之外，我们引入了预测前景深度图的方法，并专门设计了一个深度编码器来提取非局部深度嵌入。随后，我们将3D目标候选物定义为可学习查询，并提出了一种深度引导解码器来进行目标-场景深度交互。通过这种方式，每个目标查询能够从图像上的深度引导区域自适应地估计其3D属性，而不再受局部视觉特征的限制。在以单目图像作为输入的KITTI基准测试中，MonoDETR实现了最先进的性能，并且不需要额外的密集深度注释。此外，我们的深度引导模块还可以即插即用地增强nuScenes数据集上的多视图3D目标检测器，展示了其出色的泛化能力。代码可在以下地址获取：https://github.com/ZrrSkywalker/MonoDETR。