
摘要
我们提出一种深度神经网络架构,用于从单张图像和稀疏点云中推断稠密深度图。该网络通过视频流及其对应的同步稀疏点云(由激光雷达(LIDAR)或其他测距传感器获取)进行训练,同时利用相机的内参标定参数。在推理阶段,网络接收相机的标定参数(可与训练时不同)、稀疏点云以及单张图像作为输入。其中,一个校准反投影层(Calibrated Backprojection Layer)利用相机标定矩阵和深度特征描述符,将图像中的每个像素反投影至三维空间。生成的三维位置编码与图像特征描述符及前一层的输出拼接,作为编码器下一层的输入。解码器部分通过引入跳跃连接(skip-connections)结构,最终生成稠密深度图。该网络被称为校准反投影网络(Calibrated Backprojection Network, KBNet),其训练过程无需监督信号,仅通过最小化光度重投影误差实现端到端优化。KBNet在训练过程中基于训练集学习缺失深度值的推断方式,而非依赖通用正则化手段。我们在公开的深度补全基准数据集上对KBNet进行了测试,结果表明:当训练与测试使用相同相机时,其性能较当前最优方法分别提升30.5%(室内场景)和8.8%(室外场景);当测试相机与训练相机不同时,性能提升高达62%。代码已开源,地址为:https://github.com/alexklwong/calibrated-backprojection-network。