8 个月前

摘要

近年来，基于虚拟/伪点的3D目标检测通过深度补全无缝融合RGB图像和LiDAR数据，引起了广泛关注。然而，从图像生成的虚拟点非常密集，导致在检测过程中引入了大量冗余计算。同时，由不准确的深度补全带来的噪声显著降低了检测精度。本文提出了一种快速而有效的骨干网络，称为VirConvNet，该网络基于一种新的运算符VirConv（Virtual Sparse Convolution），用于基于虚拟点的3D目标检测。VirConv包含两个关键设计：(1) StVD（Stochastic Voxel Discard）和(2) NRConv（Noise-Resistant Submanifold Convolution）。StVD通过丢弃大量附近的冗余体素来缓解计算问题。NRConv通过在2D图像空间和3D LiDAR空间中编码体素特征来解决噪声问题。通过集成VirConv，我们首先开发了一个基于早期融合设计的高效流水线VirConv-L。然后，我们构建了一个基于变换精炼方案的高精度流水线VirConv-T。最后，我们开发了一个基于伪标签框架的半监督流水线VirConv-S。在KITTI汽车3D检测测试排行榜上，我们的VirConv-L实现了85%的平均精度（AP），运行速度为56毫秒。我们的VirConv-T和VirConv-S分别达到了86.3%和87.2%的高精度AP，并且目前分别排名第二和第一。代码可在https://github.com/hailanyi/VirConv获取。

源 PDF 查看代码