13 天前
GCNDepth:基于图卷积网络的自监督单目深度估计
Armin Masoumian, Hatem A. Rashwan, Saddam Abdulwahab, Julian Cristiano, Domenec Puig

摘要
深度估计是三维重建中一项具有挑战性的任务,旨在提升环境感知的精度。本文提出了一种新的解决方案,通过一系列改进,显著增强了深度图在定量与定性层面的理解能力,相较于现有方法具有明显优势。近年来,卷积神经网络(CNN)在从单目视频中估计深度图方面展现出卓越性能。然而,传统CNN无法处理拓扑结构信息,仅适用于具有固定尺寸和权重的规则图像区域。相比之下,图卷积网络(GCN)能够对非欧几里得数据进行卷积操作,适用于具有拓扑结构的不规则图像区域。因此,在本研究中,为更好地保留物体的几何外观及其空间分布特征,我们致力于利用GCN构建一种自监督深度估计模型。本模型由两个并行的自编码器网络组成:第一个网络基于ResNet-50提取输入图像的特征,并结合多尺度图卷积网络(GCN)进行深度图估计;第二个网络则基于ResNet-18,用于估计连续两帧之间的自运动矢量(即三维姿态)。所估计的三维姿态与深度图共同用于重构目标图像。为应对深度预测中的误差并有效保留物体边界的不连续性,模型采用融合光度损失、投影损失与平滑性损失的组合损失函数。实验结果表明,本方法在公开的KITTI和Make3D数据集上均取得了具有竞争力且令人鼓舞的性能,深度预测准确率高达89%,同时相比当前最优方法,可训练参数数量减少了40%。项目源代码已公开,获取地址为:https://github.com/ArminMasoumian/GCNDepth.git。