
摘要
深度估计和三维物体检测对于场景理解至关重要,但由于图像捕捉过程中三维信息的丢失,仅凭单幅图像进行这些任务仍然具有挑战性。近年来,利用深度神经网络的模型在单目深度估计方面取得了显著进展,但在预测绝对深度和超出标准数据集的泛化能力方面仍存在困难。本文引入了深度光学的概念,即光学系统和图像处理的端到端设计,通过编码失焦模糊作为额外的深度线索来解决单目深度估计问题,并由神经网络解码这些线索。我们评估了几种光学编码策略,并在包括NYU Depth v2和KITTI在内的三个数据集上进行了端到端优化方案的测试。结果表明,优化后的自由曲面透镜设计取得了最佳效果,但单透镜产生的色差也显著提升了性能。我们制作了一个物理原型,并验证了色差在实际应用中确实提高了深度估计的效果。此外,我们在KITTI数据集上训练了物体检测网络,并展示了为深度估计优化的透镜同样可以提升三维物体检测的性能。