8 个月前

摘要

单目3D目标检测在3D场景理解中面临重大挑战，主要是由于单目深度估计的固有不确定性。现有的方法严重依赖于使用大量3D标签的监督学习，这些标签通常通过昂贵且耗时的LiDAR点云注释获得。为了解决这一问题，我们提出了一种新的弱监督3D目标检测框架，称为VSRD（基于体积轮廓渲染的检测）。该框架能够在没有任何3D监督的情况下，仅依靠较弱的2D监督训练3D目标检测器。VSRD包括多视角3D自动标注和随后使用自动生成的伪标签训练单目3D目标检测器。在自动标注阶段，我们将每个实例的表面表示为符号距离场（SDF），并通过我们提出的实例感知体积轮廓渲染生成其轮廓作为实例掩码。为了通过渲染直接优化3D边界框，我们将每个实例的SDF分解为一个立方体的SDF和一个残差距离场（RDF），后者表示从立方体到实际形状的距离残差。这种机制使我们能够通过比较渲染后的实例掩码与真实实例掩码来端到端地优化3D边界框。优化后的3D边界框作为有效的训练数据用于3D目标检测。我们在KITTI-360数据集上进行了广泛的实验，结果表明我们的方法优于现有的弱监督3D目标检测方法。代码可在https://github.com/skmhrk1209/VSRD 获取。关键词：单目3D目标检测、弱监督学习、符号距离场（SDF）、体积轮廓渲染、残差距离场（RDF）、KITTI-360数据集

源 PDF