2 个月前

PAD-Net:用于同时深度估计和场景解析的多任务引导预测与蒸馏网络

Dan Xu; Wanli Ouyang; Xiaogang Wang; Nicu Sebe
PAD-Net:用于同时深度估计和场景解析的多任务引导预测与蒸馏网络
摘要

深度估计和场景解析是视觉场景理解中的两个特别重要的任务。本文提出了一种在联合卷积神经网络(CNN)中同时进行深度估计和场景解析的方法。该任务通常被视为一个深度多任务学习问题[42]。与以往方法直接根据输入的训练数据优化多个任务不同,本文提出了一种新颖的多任务引导预测与蒸馏网络(PAD-Net),首先预测一系列从中低级到高级的中间辅助任务,然后通过我们提出的多模态蒸馏模块利用这些中间辅助任务的预测结果作为多模态输入,以完成最终的任务。在联合学习过程中,中间任务不仅作为监督手段来学习更加稳健的深层表示,还提供了丰富的多模态信息以提升最终任务的表现。我们在两个具有挑战性的数据集(即NYUD-v2和Cityscapes)上对深度估计和场景解析任务进行了广泛的实验,证明了所提方法的有效性。