2 个月前

MonoScene:单目3D语义场景补全

Cao, Anh-Quan ; de Charette, Raoul
MonoScene:单目3D语义场景补全
摘要

MonoScene 提出了一种三维语义场景补全(3D Semantic Scene Completion, SSC)框架,该框架能够从单个单目 RGB 图像中推断场景的密集几何结构和语义信息。与现有的 SSC 文献不同,后者依赖于 2.5 维或 3 维输入,我们解决了从二维到三维场景重建的复杂问题,同时联合推断其语义。我们的框架基于连续的 2D 和 3D U-Nets,并通过一种新颖的 2D-3D 特征投影方法(受光学启发)将两者连接起来,引入了 3D 上下文关系先验以确保空间-语义一致性。除了架构上的贡献外,我们还引入了新的全局场景损失和局部视锥损失。实验结果表明,我们在所有指标和数据集上均优于现有文献,并且能够在相机视野之外生成合理的场景。我们的代码和训练模型可在 https://github.com/cv-rits/MonoScene 获取。