13 天前

并非所有体素都相等:从点-体素视角出发的语义场景补全

Xiaokang Chen, Jiaxiang Tang, Jingbo Wang, Gang Zeng
并非所有体素都相等:从点-体素视角出发的语义场景补全
摘要

本文重新审视了语义场景补全(Semantic Scene Completion, SSC)这一任务,旨在预测三维场景的语义与占据表示。现有方法通常基于体素化场景表示,以保持场景的局部结构信息。然而,由于存在大量可见的空体素,当网络深度增加时,这些方法往往面临严重的计算冗余问题,从而制约了补全质量的提升。为解决这一困境,本文提出了一种新颖的点-体素聚合网络(point-voxel aggregation network)。首先,通过移除可见的空体素,将体素化场景转换为点云,并引入深度点云流,高效地捕捉场景中的语义信息。同时,设计了一个轻量级体素流,仅包含两个3D卷积层,以保留体素化场景的局部结构特征。此外,我们提出了一种各向异性体素聚合算子,用于将体素流中的结构细节融合至点云流中;并设计了一个语义感知传播模块,通过语义标签增强点云流中的上采样过程。实验结果表明,本方法在两个主流基准数据集上均显著超越现有最先进方法,且仅以深度图像作为输入。

并非所有体素都相等:从点-体素视角出发的语义场景补全 | 最新论文 | HyperAI超神经