6 个月前

摘要

由于获取等距投影（360°）图像的真值深度数据存在困难，当前等距投影深度数据在质量和数量上均不足以充分表征世界中的各类场景。因此，仅依赖监督学习的360°深度估计方法注定难以取得理想效果。尽管已有研究提出针对等距投影图像（EIs）的自监督学习方法，但这些方法常存在解不准确或非唯一的问题，导致性能不稳定。本文提出了一系列改进的360°单目深度估计方法，有效克服了以往研究的局限性。首先，我们提出一种仅利用重力对齐视频的自监督360°深度学习方法，该方法有望在训练过程中完全摆脱对深度标注数据的依赖。其次，我们设计了一种联合学习框架，通过融合监督学习与自监督学习的优势，互补各自短板，从而实现更精确的深度估计。第三，我们提出一种非局部融合模块，能够在深度重建过程中更好地保留视觉Transformer所编码的全局信息。在所提出的各项技术基础上，据我们所知，首次成功将Transformer架构应用于360°深度估计任务，实现了此前未被探索的尝试。在多个基准测试中，我们的方法显著优于现有工作，达到了当前最优的性能水平，建立了新的技术标杆。

源 PDF