16 天前
ImGeoNet:图像引导的几何感知体素表征用于多视角3D目标检测
Tao Tu, Shun-Po Chuang, Yu-Lun Liu, Cheng Sun, Ke Zhang, Donna Roy, Cheng-Hao Kuo, Min Sun

摘要
我们提出ImGeoNet,一种基于多视角图像的3D目标检测框架,该框架通过图像诱导的几何感知体素表示来建模三维空间。与以往方法将二维特征直接聚合到三维体素中而忽略几何信息不同,ImGeoNet能够从多视角图像中学习并推导出几何结构,从而缓解自由空间体素带来的混淆问题。在推理阶段,仅需多视角图像即可完成检测任务。此外,该表示方法可有效利用强大的预训练二维特征提取器,显著提升模型的鲁棒性表现。为验证ImGeoNet的有效性,我们在三个室内数据集(ARKitScenes、ScanNetV2 和 ScanNet200)上进行了定量与定性实验。结果表明,在所有三个数据集上,ImGeoNet在检测精度方面均优于当前最先进的多视角图像基方法ImVoxelNet。此外,ImGeoNet展现出优异的数据效率:仅使用40个视角即可达到与ImVoxelNet使用100个视角相当的性能,充分体现了其对数据的高效利用能力。进一步研究表明,我们提出的图像诱导几何感知表示能够使基于图像的方法在两种实际场景下超越经典的基于点云的方法VoteNet:(1)当点云稀疏且噪声较大时,如ARKitScenes数据集中的情况;(2)当涉及多样化的物体类别,尤其是小尺寸物体类别时,如ScanNet200数据集中的情形。这表明,ImGeoNet在复杂现实场景中具有显著优势,为基于图像的3D检测提供了新的技术路径。