8 个月前

摘要

从单张图像中进行3D物体检测而不使用激光雷达（LiDAR）是一项具有挑战性的任务，因为缺乏精确的深度信息。传统的2D卷积不适合此任务，因为它们无法捕捉到局部物体及其尺度信息，而这些信息对于3D物体检测至关重要。为了更好地表示3D结构，以往的方法通常将从2D图像估计的深度图转换为伪激光雷达表示，然后应用现有的基于3D点云的物体检测器。然而，这些方法的结果严重依赖于估计深度图的准确性，导致性能次优。在本研究中，我们没有使用伪激光雷达表示，而是通过提出一种新的局部卷积网络（LCN），即深度引导的动态深度扩张LCN（Depth-guided Dynamic-Depthwise-Dilated LCN, D $^4$ LCN），改进了基本的2D全卷积网络。在该网络中，滤波器及其感受野可以从基于图像的深度图中自动学习，使得不同图像中的不同像素具有不同的滤波器。D $^4$ LCN克服了传统2D卷积的局限性，并缩小了图像表示与3D点云表示之间的差距。大量实验表明，D $^4$ LCN在多个指标上显著优于现有方法。例如，在KITTI数据集的中等难度设置下，相对于最先进的方法，D $^4$ LCN的相对提升达到了9.1%。代码已发布在https://github.com/dingmyu/D4LCN。