
摘要
基于数据驱动的深度估计方法在训练场景之外的泛化能力较差,主要原因在于现实场景中存在巨大的多样性。尽管利用合成图像可以在一定程度上缓解这一问题,但缩小合成数据与真实数据之间的域差距仍极具挑战。本文提出一种新方法,通过使用域不变的离焦模糊(defocus blur)作为直接监督信号来解决该问题。我们利用离焦线索,设计了一种排列不变的卷积神经网络,促使网络从不同聚焦点图像之间的差异中进行学习。所提出的网络将离焦图(defocus map)作为中间监督信号,实现了完全在合成数据上进行训练,并可直接应用于多种真实世界图像。我们在合成数据集和真实数据集上对模型进行了评估,结果表明该方法具有出色的泛化性能,并达到了当前最先进的深度预测水平。