17 天前

D-Net:一种通用且优化的单目深度估计深度网络

{Abdesselam Bouzerdoum, Son Lam Phung, Joshua Luke Thompson}
摘要

深度估计是计算机视觉系统实现三维场景理解的关键组成部分。高效且准确的深度图估计在自动驾驶车辆、虚拟现实工具等诸多领域具有广泛应用。本文提出一种新型深度神经网络——D-Net,用于从单张RGB图像中进行深度估计。所提出的网络支持端到端训练,其结构可根据不同需求灵活调整,以适应模型大小、运行速度和预测精度之间的权衡。该方法在多尺度下捕获强大的全局与局部上下文特征,并将其传递至高分辨率空间,从而生成更为清晰的深度图。在编码器主干网络方面,D-Net可灵活集成多种前沿模型,如EfficientNet、HRNet和Swin Transformer,以生成高密度深度图。所提出的D-Net设计具有最少的参数量和较低的计算复杂度。在NYUv2和KITTI基准数据集上的大量实验评估表明,该模型在多种主干网络下均表现出高度准确性;当与Swin Transformer和HRNet结合时,其在两个基准测试中均达到了当前最优(state-of-the-art)的性能水平。