16 天前
用于无监督室内深度估计的自动修正网络
Jia-Wang Bian, Huangying Zhan, Naiyan Wang, Tat-Jun Chin, Chunhua Shen, Ian Reid

摘要
基于未标注视频训练的卷积神经网络(CNN)进行单视角深度估计已展现出巨大潜力。然而,目前优异的性能主要集中在街景驾驶场景中,而在其他场景,尤其是由手持设备拍摄的室内视频中,这类方法往往表现不佳。本文研究表明,手持设备所呈现的复杂自身运动(ego-motion)是深度学习过程中的关键障碍。我们的基础分析表明,在训练过程中,旋转分量表现为噪声,而平移分量(基线)则提供了有效的监督信号。为应对这一挑战,我们提出一种数据预处理方法,通过消除图像间的相对旋转,实现训练图像的校正,从而促进更有效的深度学习。实验结果表明,该方法显著提升了模型性能,验证了我们的设计动机。为进一步实现端到端学习并避免依赖预处理步骤,我们提出一种名为Auto-Rectify Network的新网络结构,结合新颖的损失函数,使模型能够在训练过程中自动学习图像校正能力。实验结果表明,该方法在具有挑战性的NYUv2数据集上显著超越了此前无监督学习的最先进方法。此外,我们还验证了所训练模型在ScanNet和Make3D数据集上的泛化能力,同时展示了所提出学习方法在7-Scenes和KITTI数据集上的广泛适用性。