6 个月前

摘要

由于输入数据稀疏且不完整，场景中存在大量尺度各异的物体，以及动态物体固有的标签噪声，训练用于语义场景补全（Semantic Scene Completion, SSC）的深度模型面临诸多挑战。为应对上述问题，本文提出以下三项创新解决方案：1）重构补全子网络。设计一种新型的补全子网络，其核心由多个多路径模块（Multi-Path Blocks, MPBs）构成，能够有效聚合多尺度特征，同时避免传统方法中因下采样操作导致的信息损失。2）从多帧模型中蒸馏丰富知识。提出一种新颖的知识蒸馏目标函数，称为密集到稀疏知识蒸馏（Dense-to-Sparse Knowledge Distillation, DSKD）。该方法将多帧教师模型中蕴含的密集且基于关系的语义知识，迁移至单帧学生模型，显著提升了单帧模型的表征学习能力。3）补全标签校正。提出一种简单而高效的标签校正策略，利用现成的全景分割（panoptic segmentation）标签，自动去除补全标签中动态物体留下的残留痕迹，从而大幅提高深度模型在动态物体上的性能表现。在两个公开的语义场景补全基准数据集——SemanticKITTI 和 SemanticPOSS 上进行了大量实验验证。结果表明，所提出的 SCPNet 在 SemanticKITTI 语义场景补全挑战赛中排名第一，相比具有竞争力的 S3CNet 模型，mIoU 提升达 7.2 个百分点。同时，SCPNet 在 SemanticPOSS 数据集上也优于此前的各类补全算法。此外，该方法在 SemanticKITTI 语义分割任务上亦取得了具有竞争力的性能表现，验证了场景补全过程中所学习到的知识对分割任务具有显著的正向促进作用。

源 PDF 查看代码