2 个月前
PanopticFusion:面向在线体素语义映射的“物”与“质”级融合方法
Gaku Narita; Takashi Seno; Tomoya Ishikawa; Yohsuke Kaji

摘要
我们提出了一种名为PanopticFusion的新颖在线体素语义映射系统,该系统能够在“背景区域”(stuff)和“前景对象”(things)的层面上进行密集预测。与以往的语义映射系统不同,PanopticFusion不仅能够对背景区域进行密集的类别标签预测,还能对任意前景对象进行单独分割。此外,由于采用了空间哈希体素地图表示方法,我们的系统还具备大规模场景重建和提取带标签网格的能力。系统首先通过融合2D语义分割和实例分割的输出结果,为传入的RGB帧预测像素级全景标签(包括背景区域的类别标签和前景对象的实例ID)。在将预测的全景标签与深度测量值一起整合到体素地图中时,通过参考当前时刻的3D地图来保持实例ID的一致性,因为这些ID可能会随帧变化而变化。此外,我们构建了一个关于全景标签的全连接条件随机场(CRF)模型来进行地图正则化。为了实现在线CRF推理,我们提出了一种新的单元势近似方法和一种地图划分策略。我们在ScanNet(v2)数据集上评估了系统的性能。PanopticFusion在语义分割和实例分割基准测试中均优于或可与最先进的离线3D深度神经网络(DNN)方法相媲美。此外,我们还展示了利用该系统生成的3D全景图在增强现实应用中的潜力。