
摘要
本文提出一种基于学习的方法,用于从单目全景图像中预测场景的稠密深度值。全景图像具有完整的视场角,相较于透视图像能够提供更为完整的场景描述。然而,当前大多数方法依赖的全卷积网络难以从全景图像中捕捉丰富的全局上下文信息。此外,等距柱状投影(equirectangular projection)带来的畸变问题也进一步影响了深度估计的精度。为解决上述问题,本文提出一种基于Transformer的新架构——立方体图视觉Transformer(Cubemap Vision Transformers, CViT),该架构能够建模长距离依赖关系,并从全景图像中提取无畸变的全局特征。我们证明,CViT在每一阶段均具备全局感受野,能够为球面信号提供全局一致的预测结果。为进一步保留重要的局部特征,我们在网络架构中引入了一个基于卷积的分支(称为GLPanoDepth),并在多尺度上融合来自CViT的全局特征。这种“全局到局部”的策略使我们能够充分挖掘全景图像中的有用全局与局部特征,在全景深度估计任务中取得了当前最优的性能表现。