
摘要
从单张图像预测深度是一个极具吸引力的研究课题,因为它为机器提供了额外的维度信息,从而更有效地感知世界。近年来,深度学习已成为单目深度估计的一种有效方法。由于标注数据的获取成本较高,研究趋势正从监督学习转向无监督学习,以实现单目深度估计。然而,大多数能够达到高精度深度预测的无监督学习方法通常依赖于深层网络架构,这使得模型过于庞大和复杂,难以在存储和内存资源有限的嵌入式设备上运行。为解决这一问题,本文提出一种新型高效网络结构,引入循环模块,在保持极轻量化的同时具备深层网络的性能,从而实现基于视频序列的实时、高性能无监督单目深度估计。此外,我们设计了一种新颖且高效的上采样模块,能够融合对应编码层的特征,并以极少的模型参数恢复特征的空间尺寸。通过在KITTI数据集上的大量实验验证了所提方法的有效性。实验结果表明,该模型在单张GPU上可达到约110帧/秒(fps)的运行速度,在单核CPU上为37 fps,在树莓派3(Raspberry Pi 3)上也可实现2 fps的实时性能。同时,其深度预测精度优于现有先进模型,且模型参数量仅为后者的约1/33。据我们所知,本工作是首个基于单目视频序列训练的极轻量化神经网络,实现了实时无监督单目深度估计,为在低成本嵌入式设备上部署基于深度学习的实时无监督单目深度预测提供了可能。