
摘要
单目3D目标检测是3D场景理解中最具挑战性的任务之一。由于单目图像的不适定性,现有的单目3D检测方法高度依赖于在LiDAR点云上手动标注的3D框标签进行训练。这一标注过程非常耗时且成本高昂。为了摆脱对3D框标签的依赖,本文探索了弱监督单目3D检测方法。具体而言,我们首先在图像上检测2D框,然后利用生成的2D框选择对应的RoI(Region of Interest)LiDAR点作为弱监督信号。最终,我们采用一个网络来预测能够紧密对齐相关RoI LiDAR点的3D框。该网络通过最小化我们新提出的3D对齐损失函数来学习,该损失函数用于衡量3D框估计值与对应RoI LiDAR点之间的差异。我们将阐述上述学习问题中可能遇到的挑战,并通过引入几种有效设计来解决这些挑战。代码将在https://github.com/SPengLiang/WeakM3D提供。