11 天前

自顶向下网络:融合多尺度上下文的3D语义场景补全

{Hongbo Zhang, Feng Wen, Wanlong Li, Yong liu, Chujuan Zhang, Tianxin Huang, Xuemeng Yang, Hao Zou}
摘要

高效的三维场景感知算法是自动驾驶与机器人系统中的关键组成部分。本文聚焦于语义场景补全(semantic scene completion)任务,即联合估计体素空间中的占据状态与物体的语义标签。由于真实世界数据通常稀疏且存在大量遮挡,该任务极具挑战性。为此,本文提出一种新型网络框架——自上而下网络(Up-to-Down Network, UDNet),采用编码器-解码器结构对体素网格进行建模,以实现大规模语义场景补全。所提出的自上而下模块能够有效聚合多尺度上下文信息,提升语义标签的一致性;同时引入空洞空间金字塔池化(atrous spatial pyramid pooling)模块,在扩展感受野的同时保留精细的几何结构信息。此外,所设计的多尺度融合机制可高效整合全局背景信息,显著提升语义补全的准确性。为进一步满足不同任务对精度与效率的多样化需求,UDNet还支持多分辨率语义补全,在保证实时推理速度的前提下,实现更快但分辨率较低的补全结果。在SemanticKITTI语义场景补全基准上的大量实验表明,所提出的框架在性能上显著超越现有最先进方法,同时保持实时推理能力,且仅以体素网格作为输入。

自顶向下网络:融合多尺度上下文的3D语义场景补全 | 最新论文 | HyperAI超神经