2 个月前

MonoDGP:基于解耦查询和几何误差先验的单目3D目标检测

Pu, Fanqi ; Wang, Yifan ; Deng, Jiru ; Yang, Wenming
MonoDGP:基于解耦查询和几何误差先验的单目3D目标检测
摘要

透视投影在单目3D目标检测方法中得到了广泛应用。它通过引入2D边界框和3D目标尺寸的几何先验来减少深度估计的不确定性。然而,由于来自目标视觉表面的深度误差,边界框的高度往往无法准确表示实际投影中心高度,这削弱了几何深度的有效性。直接预测投影高度不可避免地会导致2D先验的丢失,而复杂的多深度预测分支则未能充分利用几何深度。本文提出了一种基于Transformer的单目3D目标检测方法——MonoDGP,该方法采用透视不变几何误差来修正投影公式。我们还系统地讨论和解释了几何误差背后的机制及其有效性,作为多深度预测的一种简单但有效的替代方案。此外,MonoDGP解耦了深度引导解码器,并构建了一个仅依赖于视觉特征的2D解码器,提供2D先验并初始化对象查询,而不受3D检测的干扰。为了进一步优化和微调Transformer解码器的输入标记,我们还引入了一个区域分割头(Region Segment Head, RSH),用于生成增强特征和分割嵌入。我们的单目方法在KITTI基准测试中展示了最先进的性能,且无需额外数据。代码可在以下地址获取:https://github.com/PuFanqi23/MonoDGP。

MonoDGP:基于解耦查询和几何误差先验的单目3D目标检测 | 最新论文 | HyperAI超神经