11 天前
S3CNet:一种用于激光雷达点云的稀疏语义场景补全网络
Ran Cheng, Christopher Agia, Yuan Ren, Xinhai Li, Liu Bingbing

摘要
随着自动驾驶及类似机器人系统对鲁棒三维视觉依赖的不断加深,利用深度卷积神经网络处理激光雷达(LiDAR)扫描数据已成为学术界与工业界共同关注的主流趋势。在具有挑战性的语义场景补全(Semantic Scene Completion)任务中,先前的研究在小规模室内场景中已取得一定成功,尤其是在输入为密集点云或密集深度图,并常与来自RGB图像的语义分割图融合的情况下。然而,当将这些方法应用于具有动态变化和指数级稀疏特征的大规模室外场景时,其性能显著下降。此外,由于内存限制,对整个稀疏三维体素进行处理变得不可行;而为应对这一问题所采用的折中方案——将整体空间划分为多个等大小的子区域并分别进行推理——又引入了计算效率低下问题,导致实时处理能力难以实现。本文提出一种能够有效建模大规模环境稀疏性的新方法,并设计了S3CNet:一种基于稀疏卷积的神经网络架构,能够从单一统一的LiDAR点云中直接预测语义完整的三维场景。实验结果表明,所提方法在三维语义场景补全任务上优于所有现有对比模型,在SemanticKITTI基准测试中达到了当前最优水平。此外,我们进一步提出S3CNet的二维变体,结合多视角融合策略以增强三维网络的性能,从而提升对遮挡以及远距离区域极端稀疏情况下的鲁棒性。我们在两个开源数据集上开展了二维语义场景补全的实验,将所提出的稀疏二维网络与多个先进的LiDAR分割模型(经适配用于鸟瞰图分割任务)进行了系统性比较,验证了其有效性与优越性。