2 个月前

PanopticFusion：面向在线体素语义映射的“物”与“质”级融合方法

Gaku Narita; Takashi Seno; Tomoya Ishikawa; Yohsuke Kaji

摘要

我们提出了一种名为PanopticFusion的新颖在线体素语义映射系统，该系统能够在“背景区域”（stuff）和“前景对象”（things）的层面上进行密集预测。与以往的语义映射系统不同，PanopticFusion不仅能够对背景区域进行密集的类别标签预测，还能对任意前景对象进行单独分割。此外，由于采用了空间哈希体素地图表示方法，我们的系统还具备大规模场景重建和提取带标签网格的能力。系统首先通过融合2D语义分割和实例分割的输出结果，为传入的RGB帧预测像素级全景标签（包括背景区域的类别标签和前景对象的实例ID）。在将预测的全景标签与深度测量值一起整合到体素地图中时，通过参考当前时刻的3D地图来保持实例ID的一致性，因为这些ID可能会随帧变化而变化。此外，我们构建了一个关于全景标签的全连接条件随机场（CRF）模型来进行地图正则化。为了实现在线CRF推理，我们提出了一种新的单元势近似方法和一种地图划分策略。我们在ScanNet（v2）数据集上评估了系统的性能。PanopticFusion在语义分割和实例分割基准测试中均优于或可与最先进的离线3D深度神经网络（DNN）方法相媲美。此外，我们还展示了利用该系统生成的3D全景图在增强现实应用中的潜力。