6 个月前

摘要

基于未标注视频训练的卷积神经网络（CNN）进行单视角深度估计已展现出巨大潜力。然而，目前优异的性能主要集中在街景驾驶场景中，而在其他场景，尤其是由手持设备拍摄的室内视频中，这类方法往往表现不佳。本文研究表明，手持设备所呈现的复杂自身运动（ego-motion）是深度学习过程中的关键障碍。我们的基础分析表明，在训练过程中，旋转分量表现为噪声，而平移分量（基线）则提供了有效的监督信号。为应对这一挑战，我们提出一种数据预处理方法，通过消除图像间的相对旋转，实现训练图像的校正，从而促进更有效的深度学习。实验结果表明，该方法显著提升了模型性能，验证了我们的设计动机。为进一步实现端到端学习并避免依赖预处理步骤，我们提出一种名为Auto-Rectify Network的新网络结构，结合新颖的损失函数，使模型能够在训练过程中自动学习图像校正能力。实验结果表明，该方法在具有挑战性的NYUv2数据集上显著超越了此前无监督学习的最先进方法。此外，我们还验证了所训练模型在ScanNet和Make3D数据集上的泛化能力，同时展示了所提出学习方法在7-Scenes和KITTI数据集上的广泛适用性。

源 PDF 查看代码