
摘要
我们提出了一种名为3DMV的新方法,用于室内环境中的RGB-D扫描的三维语义场景分割,该方法采用联合三维多视图预测网络。与现有方法要么使用几何数据、要么使用RGB数据作为输入不同,我们在一个联合的端到端网络架构中结合了这两种数据模态。为了避免仅将颜色数据投影到体素网格并在纯三维空间中操作而导致细节不足的问题,我们首先从关联的RGB图像中提取特征图。然后,通过可微逆投影层将这些特征映射到3D网络的体素特征网格中。由于我们的目标是可能包含大量帧的三维扫描场景,因此我们采用了多视图池化方法来处理不同数量的RGB输入视图。这种通过我们的联合2D-3D架构学习到的RGB和几何特征的组合显著优于现有的基线方法。例如,在ScanNet 3D分割基准测试中,我们的最终结果相比现有的体素架构,准确率从52.8%提高到了75%。